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本 书 对 深度 学 习 方法 以 及 它 在 各 种 信号 与 信息 处 理 任务 中 的 应 用 进行 了 
痔 述 。 书 中 所 列举 的 应 用 是 根据 以 下 三 个 标准 来 选取 的 : 山本 书 作 者 所 具备 的 
专业 技能 和 知识 ; @ 由 于 深度 学 习 技术 的 成 功 应 用 而 取得 了 重大 突破 的 领域 ， 
比如 语音 识别 和 计算 机 视觉 等 ，@) 由 于 深度 学 习 的 应 用 而 有 可 能 发 生 巨 变 的 应 

领域 ， 以 及 从 深度 学 习 的 最 新 研究 中 获 益 的 应 用 领域 ， 其 中 包括 自然 语言 和 
文本 处 理 、 信 息 检索 和 多 任务 深度 学 习 驱 动 下 的 多 模 态 信息 处 理 等 。 

本 书 适用 于 对 深度 学 习 方法 以 及 它 在 各 种 信号 信息 处 理应 用 方面 具有 
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译 者 序 


深度 学 习 是 目前 人 工 智 能 、 机 器 学 习 领 域 异 常 火热 的 研究 方向 ， 受 到 了 学 
术 界 和 工业 界 的 高 度 关 注 ， 被 《 麻 省 理工 学 院 技术 评论 》 (MIT Technology Re- 
view) 评 为 2013 年 十 大 突破 性 技术 之 首 。 深 度 学 习 已 经 在 语音 识别 、 图 像 识 
别 、 自 然 语 言 处 理 等 诸多 领域 取得 了 突破 性 进展 ， 对 学 术 界 和 工业 界 产生 了 深 
远 的 影响 。 本 书 原著 的 作者 一 一 微软 研究 院 的 邓 力 博士 和 便 栋 博士 是 最 早 将 深 
度 学 习 技术 付 诸 于 语音 识别 工业 级 实践 的 专家 ， 他 们 和 深度 学 习 专 家 多 伦 多 大 
学 Geoffrey Hinton 教授 合作 ， 最 早 将 深度 神经 网 络 应 用 于 大 词汇 量 连续 语音 识 
别 领域 中 ， 使 相对 识别 错误 率 降 低 了 20% 以 上 。 

作为 多 年 的 导师 和 好 朋友 ， 两 位 专家 将 这 本 书 的 中 文 翻译 任务 交付 给 我 ， 
我 倍 感 荣 幸 。 此 次 中 译本 是 在 忠于 原著 的 基础 上 进行 翻译 的 ， 既 涉及 深度 学 习 
的 背景 和 基本 概念 ， 又 涉及 常用 的 模型 与 方法 ， 同 时 包含 深度 学 习 在 不 同 领域 
中 的 应 用 。 本 书 共 有 12 章 ， 具体 内容 包括 : 引言 、 深 度 学 习 的 历史 、 三 类 深 
度 学 习 网 络 、 深 度 自 编码 器 、 预 训练 的 深度 神经 网 络 、 深 度 堆 县 网 络 及 其 变 
种 、 语 音 和 音频 处 理 中 的 应 用 、 在 语言 模型 和 自然 语言 处 理 中 的 相关 应 用 、 信 
息 检索 领域 中 的 应 用 、 在 目标 识别 和 计算 机 视觉 中 的 应 用 、 多 模 态 和 多 任务 学 
习 中 的 典型 应 用 、 结 论 。 

本 书 的 翻译 除了 受到 原著 作者 的 指导 ， 也 受到 了 张 革 副教授 、 陈 小 敏 、 吕 
fot. TR, IET, HKE, SER, KIEA, IERE, JARS BY, EER 
WEW. TAD TA AAA SSE, BOA BAT AD AP, ASB 
的 翻译 是 无 法 促成 的 。 

由 于 深度 学 习 技 术 是 一 个 快速 发 展 的 方向 ， 新 的 模型 和 应 用 层出不穷 ， 加 
之 本 人 学 识 有 限 以 及 中 英文 语言 表达 、 术 语 翻译 上 的 差异 ， 书 中 难免 存在 错 
误 ， 还 请 广大 读者 指正 与 原谅 。 建 议 读 者 在 学 习 过 程 中 和 英文 原著 一 起 阅读 ， 
并 参考 本 书 引用 的 参考 文献 ， 以 便 提高 学 习 和 理解 效果 。 
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“这 本 书 对 最 前 治 的 深度 学 习 方 法 及 应 用 进行 了 全 面 的 阐述 ， 不 仅 包 括 
自动 语音 识别 (ASR) ， 还 包括 计算 机 视觉 、 语 言 建 模 、 文 本 处 理 、 多 模 态 学 
习 以 及 信息 检索 。 在 深度 学 习 这 一 领域 ， 这 是 第 一 本 ， 也 是 最 有 价值 的 一 本 
书 ,能 使 读者 对 这 一 领域 进行 广泛 而 深入 的 学 习 。 深 度 学 习 对 信息 处 理 的 很 多 
方面 (尤其 对 语音 识别 ) 都 具有 重大 的 影响 ， 甚 至 对 整个 科技 领域 的 影响 也 
不 容 忽视 。 因 此 ， 对 于 有 意 了 解 这 一 领域 的 学 者 ， 这 本 书 是 绝对 不 容错 过 的 。 











Sadaoki Furui， 艺 加 哥 丰 田 技术 研究 院 院 长 ， 日 本 东京 工业 大 学 教授 
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深度 学 习 ， 方 法 及 应 用 


1.1 深度 学 习 的 定义 与 背景 





2006 年 ， 深 度 结构 学 习 〈 经 常 被 称 作 深度 学 习 或 分 层 学习 ) 作为 机 器 学 
习 研 究 的 一 个 新 的 领域 出 现 了 "9 。 在 过 去 的 几 年 里 ， 由 深度 学 习 发 展 而 来 
的 一 些 科 学 技术 对 信号 和 信息 处 理 的 各 个 方面 都 产生 了 深远 的 影响 ， 这 种 影响 
不 仅 存 在 于 传统 领域 ， 也 存在 于 诸如 机 器 学 习 和 人 工 智能 等 一 些 重要 的 新 兴 领 
域 中 ; 对 于 此 类 研究 ， 文献 [7, 20, 24, 77, 94, 161, 412] 进行 了 概述 ， 
媒体 报道 (6, 237] 也 有 所 涉及 。 近 年 来 ,很 多 研讨 会 、 教 程 、 期 刊 专刊 或 
专题 会 议 都 对 深度 学 习 及 其 在 信号 和 信息 处 理 中 的 各 种 应 用 进行 了 专门 的 研讨 
活动 ， 其 中 包括 : 

© 2008 年 NIPS (Neural Information Processing Systems， 神 经 信息 处 理 系 
统 ) 深度 学 习 研 讨 会 (2008 NIPS Deep Learning Workshop) ; 

© 2009 年 NIPS 关于 深度 学 习 的 语音 识别 及 相关 应 用 的 研讨 会 (2009 
NIPS Workshop on Deep Learning for Speech Recognition and Related Applica- 














tions) ; 

© 2009 年 国际 机 器 学 习 大 会 (International Conference on Machine Learn- 
ing，ICML) 关于 学 习 特 征 的 研讨 会 (2009 ICML Workshop on Learning Feature 
Hierarchies) ; 

© 2011 年 国际 机 器 学 习 大 会 关于 语音 和 视觉 信息 处 理 中 学 习 架 构 、 表 示 
和 最 优化 的 研讨 会 (2011 ICML Workshop on Learning Architectures ，Representa- 
tions ，and Optimization for Speech and Visual Information Processing ) ; 

© 2012 年 ICASSP (International Conference on Acoustics, Speech and Signal 
Processing， 国 际 声学 ， 话 音 与 信号 处 理会 议 ) 关于 在 信号 和 信息 处 理 中 深度 
学 习 应 用 的 研讨 会 (2012 ICASSP Tutorial on Deep Learning for Signal and Infor- 
mation Processing ) ; 

© 2012 年 国际 机 器 学 习 大 会 关于 学 习 表 示 的 研讨 会 (2012 ICML Work- 
shop on Representation Learning) ; 

e 2012 年 IEEE《 音 频 、 语 音 和 语言 处 理 》(T- ASLP，1 月 ) 会 刊 中 有 关 
语音 和 语言 处 理 中 深度 学 习 专 栏 (2012 Special Section on Deep Learning for 


Speech and Language Processing in IEEE Transactions on Audio, Speech, and Lan- 





























guage Processing (T-ASLP, January) ) ; 
© 2010, 2011 和 2012 年 NIPS 关于 深度 学 习 和 无 监督 特征 学 习 的 研讨 会 
(2010, 2011, and 2012 NIPS Workshops on Deep Learning and Unsupervised Fea- 


ture Learning) ; 
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© 2013 年 NIPS 关于 深度 学 习 和 输出 表示 学 习 的 研讨 会 (2013 NIPS 
Workshops on Deep Learning and on Output Representation Learning) ; 

e 2013 年 正 FE《 模 式 分 析 和 机 天 智能 》(T-PAMI，9 月 ) 的 杂志 中 有 
关 学 习 深 度 架 构 的 特刊 (2013 Special Issue on Learning Deep Architectures in 
IEEE Transactions on Pattern Analysis and Machine Intelligence ( T-PAMI, 








September ) ) ; 

© 2013 年 关于 学 习 表 示 的 国际 会 议 (2013 International Conference on 
Learning Representations ) ; 

。 2013 年 国际 机 天 学 习 大 会 关于 表示 学 习 面 临 的 挑战 研讨 会 (2013 ICML 
Workshop on Representation Learning Challenges) ; 

© 2013 年 国际 机 需 学 习 大 会 关于 音频 、 语 音 和 语言 处 理 中 深度 学 习 的 研 
讨 会 (2013 ICML Workshop on Deep Learning for Audio, Speech, and Language 
Processing ) ; 

。 2013 年 ICASSP 关于 语音 识别 中 的 新 型 神经 网 络 以 及 相关 应 用 专栏 
(2013 ICASSP Special Session on New Types of Deep Neural Network Learning for 
Speech Recognition and Related Applications ) 

本 书 的 作者 一 直 从 事 深度 学 习 的 研究 ， 也 组 织 或 参与 过 上 述 中 的 一 些 重要 
会 议 以 及 特刊 的 编写 工作 。 要 特别 提出 的 是 ， 本 书 作者 频频 受 邀 在 众多 重要 会 
议 上 对 深度 学 习 进行 专题 报告 ,而 本 书 的 部 分 内 容 也 是 基于 这 些 报 告 内 容 整 理 
而 成 的 。 

在 开始 详细 介绍 深度 学 习 的 内 容 之 前 ， 我 们 有 必要 先 了 解 一 些 基本 概念 ， 
下 面 是 一 些 与 深度 学 习 密 切 相 关 的 概念 和 描述 : 

定义 1:“ 机 器 学 习 是 一 类 利用 多 个 非 线性 信息 处 理 层 来 完成 监督 或 者 
无 监督 的 特征 提取 和 转化 ， 以 及 模式 分 析 和 分 类 等 任务 的 技术 。” 

。 定义 2:“ 深 度 学 习 是 机 带 学 习 的 子 领域 , 它 是 一 种 通过 多 层 表示 来 对 
数据 之 间 的 复杂 关系 进行 建 模 的 算法 。 高 层 的 特征 和 概念 取决 于 低层 的 特征 和 
概念 ， 这 样 的 分 层 特征 叫做 深层 ， 其 中 大 多 数 模 型 都 基于 无 监督 的 学 习 表 
AR.” (2012 年 3 月 维基 百科 对 深度 学 习 的 定义 。) 

e 定 义 3:“ 深 度 学 习 是 机 顺 学 习 的 子 领域 ， 它 是 基于 多 层 表示 的 学 习 ， 
每 层 对 应 一 个 特定 的 特征 、 因 素 或 概念 。 高 层 概念 取决 于 低层 概念 ， 而 且 同 一 
低层 的 概念 有 助 于 确定 多 个 高 层 概念 。 深 度 学 习 是 基于 表示 学 习 的 众多 机 器 学 
习 算 法 中 的 一 员 。 一 个 观测 对 象 (比如 一 张 图 片 ) 可 以 用 很 多 种 方式 表示 
(如 像素 的 一 个 向 量 ) ,但 是 有 的 表示 则 可 以 使 基于 训练 样本 的 学 习 任务 变 得 
更 容易 ( 如 判定 某 张 图 像 是 否 为 人 脸 图 像 )。 这 一 研究 领域 试图 解决 一 个 问 
题 : 哪些 因素 可 以 产生 更 好 的 表示 ,以 及 对 于 这 些 表 示 应 该 如 何 学 习 。” 
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(2013 年 2 月 维基 百科 对 深度 学 习 的 定义 。) 

定义 4:“ 深 度 学 习 是 机 器 学 习 的 一 系列 算法 ， 它 试图 在 多 个 层次 中 进 
行 学 习 ， 每 层 对 应 于 不 同 级 别 的 抽象 。 它 一 般 使 用 人 工 神经 网 络 ， 学 习 到 的 统 
计 模 型 中 的 不 同 层 对 应 于 不 同 级 别 的 概念 。 高 层 概念 取决 于 低层 概念 ， 而 且 同 
一 低层 的 概念 有 助 于 确定 多 个 高 层 概念 。 (2013 年 10 月 维基 百科 对 深度 学 习 
的 最 新 定义 。) 

。 定义 5:“ 深 度 学 习 是 机 带 学 习 研 究 的 一 个 新 领域 , 它 的 出 现 将 机 带 学 
习 向 人 工 智 能 这 一 上 日 标 进一步 拉 近 。 深 度 学 习 是 对 多 层 表示 和 抽象 的 学 习 ， 它 
使 一 些 包 括 如 图 像 、 声 音 和 文本 的 数据 变 得 有 意义 。” (参看 网 址 : https: // 
github. com/ lisa- lab/ DeepLearningTutorials ) 

应 该 注意 的 是 ， 本 书 所 讨论 的 深度 学 习 是 使 用 深度 结构 来 对 信号 和 信息 进 
行 处 理 ， 而 不 是 对 信号 或 信息 的 深度 理解 ， 尽 管 在 有 的 情况 下 这 两 个 方面 可 能 
会 比较 相似 。 在 教育 心理 学 中 ， 是 这 样 定义 深度 学 习 的 : “深度 学 习 是 描述 学 
习 的 一 种 方法 ， 其 特点 是 : 主动 参与 、 内 在 激励 和 个 人 对 意义 的 探索 。” 
(http://www. blackwellreference. com/public/tocnode? id = g9781405161251 _ 
chunk_ g97814051612516_ssl-1) 我 们 应 该 注意 将 深度 学 习 与 教育 心理 学 中 的 
这 些 被 滥用 的 术语 区 别 开 来 。 

在 上 述 多 个 不 同 的 高 层 描述 中 有 两 个 重要 的 共同 点 : (1) 都 包含 多 层 或 
多 阶 非 线性 信息 处 理 的 模型 ，(2) 都 使 用 了 连续 的 更 高 、 更 抽象 层 中 的 监督 
或 无 监督 学 习 特征 表示 的 方法 。 深 度 学 习 是 包括 神经 网 络 、 人 工 智 能 、 图 模 
型 、 最 优化 、 模 式 识别 和 信息 处 理 的 交叉 领域 ， 它 今天 之 所 以 如 此 受 欢 迎 ， 有 
三 个 重要 原因 : 其 一 ， 芯 片 处 理性 能 的 巨大 提升 〈 比 如 ， 通 用 图 形 处 理 需 ) ; 
其 二 ， 用 于 训练 的 数据 爆炸 性 增长 ， 其 三 ， 近 来 ， 机 带 学 习 和 信号 /信息 处 理 
研究 有 了 很 大 进展 ， 这 些 部 使 深度 学 习 方法 可 以 有 效 利用 复杂 的 非 线 性 函数 和 
非 线 性 的 复合 函数 来 学 习 分 布 和 分 层 的 特征 表示 ， 并 且 可 以 充分 有 效 地 利用 标 
注 和 非 标 注 的 数据 。 

近年 来 活路 在 机 器 学 习 领 域 的 研究 机 构 包 括 众多 高 校 ， 比 如 多 伦 多 大 学 、 
纽约 大 学 、 加 拿 大 蒙特 利 尔 大 学 、 斯 坦 福 大 学 、 加 州 大 学 伯克利 分 校 、 加 州 大 
学 、 伦 敦 大 学 学 院 、 密 吹 根 大 学 、 麻 省 理工 学 院 、 华 盛 顿 大 学 ,还 有 一 些 企 
业 ， 如 微软 研究 院 (从 2009 年 开始 ) 、 谷 歌 〈 大 概 从 2011 年 开始 ) 、IBM 研究 
Be (KHEM 2011 年 开始 ) 、 百 度 (从 2012 开始 ) Facebook (从 2013 年 开始 ) 、 
IDIAP 研究 所 、 瑞 士 人 工 智 能 研究 所 等 。 参 看 网 址 ; http: //deeplearning. 
net/deep-learning- research- groups- and- labs/ 

这 些 研究 机 构 将 深度 学 习 方法 成 功 地 用 于 计算 机 领域 的 众多 应 用 中 ， 其 中 
包括 : 计算 机 视觉 、 语 音 识别 、 语 音 搜索 、 连 续 语 音 识 别 、 语 言 与 图 像 的 特征 
















































































1 5l 


il 


编码 、 语 义 话 语 分 类 、 自 然 语言 理解 、 手 写 识 别 、 音 频 处 理 、 信 息 检 索 、 机 器 
人 学 ， 其 至 有 一 个 关于 分 子 生物 学 的 研究 指出 在 深度 学 习 方法 的 引领 下 发 现 了 
新 的 药物 。 

本 书 在 最 后 一 部 分 列 出 了 一 些 参 考 文献 ， 如 果 需 要 了 解 这 个 领域 的 最 新 进 
展 ,推荐 到 以 下 网 址 获取 : 

è http: //deeplearning. net/reading- list/ 

è http: //ufldl. stanford. edu/wiki/index. php/UFLDL_Recommended_ 
Readings 

















e http: //www. cs. toronto. edu/ ~ hinton/ 
e http: //deeplearning. net/tutorial/ 
è http: //ufldl. stanford. edu/wiki/index. php/UFLDL_Tutorial 


1.2 本 书 的 结构 安排 


本 书后 续 章 节 按 照 以 下 结构 进行 编排 : 

在 第 2 章 中 ， 我 们 将 简要 对 深度 学 习 的 历史 加 以 回顾 ， 主 要 从 以 下 三 个 问 
AF, 第 一 ， 深 度 学 习 对 语音 识别 技术 有 哪些 影响 。 第 二 ， 这 一 重大 科技 章 
命 是 如 何 开 始 的 。 第 三 ， 它 是 如 何 获 得 并 保持 如 此 强大 动力 的 。 

第 3 章 讲述 了 深度 学 习 中 绝 大 多 数 研究 所 使 用 的 三 元 分 类 法 。 其 中 包括 : 
有 监督 、 无 监督 和 混合 深度 学 习 网 络 。 在 分 类 任务 中 ， 混 合 深度 学 习 网 络 利用 
无 监督 学 习 (或 称 为 预 训 练 ) 来 辅助 下 一 个 阶段 的 监督 学 习 。 有 监督 和 混合 
深度 神经 网 络 通 常 都 具有 同一 类 型 的 深度 网 络 体系 或 结构 ， 但 是 无 监督 深度 网 
络 的 结构 却 往往 不 同 。 

第 4 ~6 章 分 别 集中 介绍 了 深度 结构 的 三 种 主流 类 型 ,这 三 种 类 型 都 来 源 
于 第 3 章 中 所 提 到 的 三 元 分 类 法 。 在 第 4 章 中 ， 深 度 自 编码 器 作为 无 监督 深度 
学 习 网 络 的 经 典 方法 ， 我 们 将 详细 对 其 进行 介绍 并 加 以 讨论 。 虽 然 其 中 巧妙 地 
利用 到 了 反 向 传播 这 样 的 监督 学 习 算 法 ， 但 是 在 学 习 的 过 程 中 并 没有 使 用 类 别 
标签 信息 ， 而 是 将 输入 信号 本 身 作 为 “监督 ”信和 号 。 

第 5 章 作为 混合 深度 网 络 分 类 的 主要 实例 讲解 部 分 ， 详 细 介 绍 了 这 种 用 无 
监督 生成 式 的 预 训练 方法 来 提高 监督 训练 效率 的 深度 学 习 网 络 。 在 训练 数据 有 
限 ， 并 且 没 有 其 他 合适 的 正则 化 方法 (如 dropout) 可 利用 的 情况 下 ， 混 合 深 
度 学 习 网 络 是 很 有 用 的 。 这 种 独特 的 预 训练 方法 是 以 受 限 玻 尔 效 曼 机 和 本 章 所 
要 学 习 的 深度 学 习 网 络 为 基础 的 ， 它 开启 了 深度 学 习 在 语音 识别 和 其 他 信息 处 
理 任务 中 的 早期 应 用 ， 具 有 很 重要 的 历史 意义 。 除 了 回顾 综述 以 外 ， 我 们 也 讨 
论 了 混合 深度 学 习 网 络 的 后 续 发 展 和 近期 出 现 的 一 些 不 同 观点 。 


























= 深度 学 习 ， 方 法 及 应 用 


第 6 章 详细 讨论 了 基于 三 元 分 类 法 的 判别 式 、 有 监督 深度 神经 网 络 的 一 些 
具体 实例 一 一 基本 的 深度 堆 释 式 网 络 及 其 扩展 。 这 类 深度 网 络 的 工作 原理 与 深 
度 神经 网 络 在 很 多 方面 都 有 所 不 同 。 需 要 特别 指出 的 是 ， 它 们 在 建立 宏观 深度 
网 络 的 层 或 模块 时 采用 目标 作为 标签 来 简化 学 习 算 法 。 另 外 ， 深 度 网 络 中 的 部 
分 假设 ， 如 模块 中 输出 单元 呈 线 性 的 假设 ， 也 简化 了 网 络 的 学 习 算 法 ， 使 得 我 
们 可 以 构建 和 学 习 比 第 4 章 和 第 5 章 中 网 络 更 丰富 的 架构 。 

第 7 ~11 章 选 取 了 一 些 深度 学 习 在 信号 和 信息 处 理 各 个 领域 中 成 功 的 典型 
应 用 。 第 7 章 回 顾 了 深度 学 习 在 语音 识别 、 语 音 合成 和 音频 处 理 中 的 应 用 ， 文 
献 综述 中 国 绕 语音 识别 这 一 主要 议题 的 几 个 突出 问题 划分 了 几 个 小 节 。 

第 8 章 主要 介绍 了 深度 学 习 在 语言 模型 和 自然 语言 处 理 中 的 最 新 应 用 成 
果 ， 其 中 强调 了 将 符号 实体 〈 如 词语 ) 转化 为 低 维 连续 向 量 的 最 新 进展 。 

第 9 章 主要 集中 于 对 深度 学 习 在 信息 检索 (包含 网 页 搜索 ) 中 的 突出 应 
用 的 介绍 。 

第 10 章 涉及 了 深度 学 习 在 计算 机 视觉 领域 中 有 关 图 像 目 标识 别 的 几 大 应 
用 。 这 一 章 将 深度 学 习 的 方法 分 为 两 大 类 : (1) 无 监督 特征 学 习 ; (2) 端 对 
端的 监督 学 习 以 及 特征 间 的 学 习 和 分 类 。 

第 11 章 主要 介绍 了 深度 学 习 在 多 模 态 处 理 和 多 任务 学 习 中 的 几 大 应 用 。 
我 们 根据 输入 到 深度 学 习 系 统 中 的 多 模 态 数据 特征 将 其 分 为 三 类 。 对 于 语音 、 
文本 或 图 像 的 单 模 态 数 据 ， 本 文 也 回顾 了 基于 深度 学 习 方法 的 一 些 多 任务 学 习 
研究 。 

最 后 ， 第 12 章 对 本 书 内 容 进 行 了 总 结 ， 并 对 深度 学 习 将 面临 的 挑战 和 它 
的 发 展 方向 进行 了 讨论 。 

本 书 内 容 精 短 ， 包 括 了 几 位 作者 提供 的 专题 报告 ， 一 次 是 2011 年 10 月 
APSIPA 会 议 上 的 报告 ， 另 一 次 是 2012 年 3 月 ICASSP 会 议 上 的 报告 。 另 外 ， 
本 书 也 根据 领域 内 的 进展 ， 提 供 了 大 量 更 新 到 2014 年 1 月 的 内 容 (包括 在 
2013 年 12 月 举办 的 NIPS-2013 和 IEEE- ASRU-2013 两 次 会 议 中 的 一 些 资 料 )， 
这 些 内 容 主 要 集中 于 近 几 年 快速 发 展 的 深度 学 习 研 究 和 技术 的 应 用 层面 。 
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a 深度 学 习 ， 方 法 及 应 用 


以 前 ， 绝 大 多 数 机 器 学 习 和 信和 号 处 理 技 术 都 利用 浅 层 结构 ， 这 些 结构 一 般 
包含 最 多 一 到 两 层 的 非 线性 特征 变换 ， 这 种 状况 直到 近 几 年 才 得 以 改变 。 浅 层 
结构 包括 高 斯 混合 模型 (GMM) 、 线 性 或 非 线 性 动力 系统 、 条 件 随 机 场 
(CRF), ORME (MaxEnt) , LEVL (SVM), E (LR)、 核 
回归 以 及 多 层 感 知 器 (MLP) (包括 极限 学 习 需 而 且 只 包含 一 个 隐 层 ) 。 例 如 ， 
当 使 用 核 方 法 时 ， 支 持 向 量 机 就 会 使 用 一 个 只 包含 一 个 或 零 个 特征 转换 层 的 浅 
层 线性 模式 的 分 离 模型 (最 近 由 深度 学 习 发 展 而 来 的 一 些 核 方 法 尤其 值得 注 
意 ， 请 参见 文献 [9，53 ，102，377] ) 。 已 经 证 明 ， 浅 层 结构 在 解决 很 多 简单 
的 或 者 限制 较 多 的 问题 上 效果 明显 ,但 是 由 于 其 建 模 和 表示 能 力 有 限 ， 在 遇 到 
实际 生活 中 一 些 更 复杂 的 涉及 自然 信号 (比如 人 类 语音 、 自 然 声 音 和 语言 、 
自然 图 像 和 视觉 场景 ) 的 问题 时 就 会 遇 到 各 种 困难 。 

然而 ， 人 类 信息 处 理 机 制 (比如 视觉 和 听觉 总 是 需要 深度 结构 从 丰富 
的 感官 输入 信息 中 提取 复杂 结构 并 构建 内 部 表示 。 例 如 ， 由 于 人 类 语言 的 产 出 
和 感知 系统 都 具有 清晰 的 层 结构 ， 这 就 使 得 信息 可 以 从 波形 层 转换 到 语言 
层 和 22。 同 理 ， 人 类 视觉 系统 也 有 分 层 的 特点 ， 这 些 虽然 基本 都 只 是 存在 
于 感知 层面 ， 但 有 趣 的 是 ， 有 时 候 在 产 出 时 也 有 分 层 的 特点 ”22 。 我 们 相 
信 ， 如 果 能 提出 更 高 效 且 更 有 效 的 深度 学 习 算 法 ， 那 么 用 于 处 理 这 种 自然 信和 号 
的 最 前 治 技术 也 将 进一步 得 到 提高 。 

深度 学 习 的 概念 起 源 于 对 人 工 神经 网 络 的 研究 (所 以 有 时 候 可 能 会 听 到 
“新 一 代 神 经 网 络 ” 的 说 法 )。 前 馈 神 经 网 络 或 具有 多 隐 层 的 多 层 感 知 器 
也 叫做 深度 神经 网 络 (Deep Neural Network, DNN) 是 深度 结构 模型 中 很 
好 的 范例 。 反 向 传播 算法 (back-propagation ) 流行 于 20 世纪 80 年 代 ， 是 广 为 
人 知 的 一 种 学 习 算 法 ， 在 学 习 网 络 参 数 上 很 有 有 用。 遗憾 的 是 ， 仅 仅 使 用 反 向 传 
播 算 法 在 实际 学 习 隐 层 数 目 较 少 的 网 络 时 效果 并 不 是 很 好 [2 。 在 优化 目标 
为 非 凸 函数 的 深度 神经 网 络 中 ,来 自 局 部 最 优化 或 其 他 最 优化 问题 的 挑战 普遍 
存在 ， 这 些 挑战 通常 是 学 习 中 面临 的 主要 困难 。 反 向 传播 算法 基于 局 部 梯度 信 
息 ， 并 往往 从 一 些 随 机 的 初始 点 开始 ， 当 使 用 批量 梯度 下 降 或 随机 梯度 下 降 的 
反问 传播 算法 时 ， 目 标 函 数 经 常会 陷入 局 部 最 优 的 境地 。 随 着 网 络 层 数 的 加 
深 ,局 部 最 优 的 情况 也 就 会 变 得 越 来 越 严 重 。 之 所 以 出 现 上 述 问题 ， 部 分 原因 
EF: 我 们 虽然 对 小 规模 的 神经 网 络 的 探究 从 未 间断 过 92220292 ， 但 
是 大 多 数 机 器 学 习 和 信和 号 处 理 研究 方向 有 所 偏离 ， 人 们 将 重点 从 对 神经 网 络 的 
研究 转移 到 对 具有 凸 损失 函数 的 浅 层 模型 〈 例 如 ， 文 持 向 量 机 、CRF 和 Max- 
Ent 模型 ) 的 研究 ， 这 类 模型 以 降低 建 模 能 力 为 代价 ， 达 到 快速 高 效 地 收敛 到 
全 局 最 优化 的 目的 ， 所 以 深层 网 络 常 陷 入 局 部 最 优 的 问题 还 有 待 解 决 。 

2006 年 Hinton 在 研讨 会 上 的 两 篇 论文 [163，164] 中 介绍 了 一 种 高 效 的 





























































































































2 深度 学 习 的 历史 攻 


无 监督 学 习 算 法 ,它们 经 验 性 地 缓解 了 与 深度 模型 相关 的 最 优化 难题 。 这 两 
篇 论文 介绍 了 一 类 叫 作 深度 置信 和 网络 (Deep Belief Network, DBN) 的 深度 
产生 式 模型 。DBN 是 由 一 组 受 限 玻 尔 效 曼 机 (RBMs) FEB MMM, CAH 
心 部 分 是 贪 焚 的 、 逐 层 学 习 的 算法 ， 这 种 算法 可 以 最 优化 深度 置信 网 络 的 权 
重 ， 它 的 时 间 复 杂 度 与 网 络 的 大 小 和 深度 呈 线 性 关系 。 使 人 意 想不到 的 是 ， 
使 用 配置 好 的 深度 置信 网 络 来 初始 化 多 层 感 知 器 的 权重 ， 常 常会 得 到 比 随机 
初始 化 的 方法 更 好 的 结果 。 包 含 多 个 隐 层 的 多 层 感知 器 或 深度 神经 网 络 ， 通 
过 无 监督 的 深度 置信 和 网络 来 进行 预 训练 ， 然 后 通过 反 向 传播 微调 来 实现 ， 在 
文献 [67, 260, 258] 中 也 称 之 为 深度 置信 和 网络 。 最 近 ， 研究 者 对 于 DNN 
与 DBN 进行 了 更 加 细致 的 区 分 '%*1 1， 如 果 使 用 DBN 去 初始 化 DNN 的 训练 
时 ， 这 种 网 络 可 以 被 称 为 DBN- DNN' 1。 

与 受 限 玻 尔 兹 曼 机 的 发 展 相 独立 ， 在 2006 年 ， 两 个 不 同 的 、 非 概率 的 、 
非 产 生 式 的 无 监督 的 深度 模型 出 现 了 。 一 个 是 自 编码 器 的 一 种 变 体 ， 使 用 与 
DBN 训练 相似 的 贪心 分 层 进行 训练 。 另 一 个 是 基于 能 量 的 模型 ， 用 稀 蚊 的 完 
备 表 示 来 进行 非 监 督学 习 。 与 DBN 相似 ， 它 们 都 可 以 对 深度 神经 网 络 进 行 高 
效 的 预 训练 。 

除了 具有 好 的 初始 点 ，DBN 还 有 一 些 颇 具 吸 引力 的 优点 : 第 一 ， 它 的 学 
习 算 法 可 以 有 效 使 用 未 标注 的 数据 ; 第 二 ， 它 可 以 看 作 是 一 个 概率 生成 模型 ; 
第 三 ， 对 于 经 常 出 现在 诸如 DBN 这 样 的 含有 数 百 万 个 参数 的 模型 中 的 过 拟 合 
问题 ， 以 及 经 党 出 现在 深度 网 络 中 的 欠 拟 合 问题 ， 都 可 以 通过 产生 式 预 训练 方 
法 得 到 有 效 解 决 '*”|。 

在 DNN 中 ， 多 神经 元 隐 层 的 使 用 不 仅 显著 提高 了 DNN 的 建 模 能 力 ， 而 且 
产生 出 了 许多 接近 的 最 优 配 置 。 即 使 参数 学 习 过 程 陷 入 局 部 最 优 , 但 由 于 出 现 
欠 佳 的 局 部 最 优 的 概率 比 网 络 中 应 用 少数 神经 元 的 时 候 要 低 ， 所 以 最 终 的 
DNN 仍然 效果 很 好 。 然 而 ， 在 训练 过 程 中 使 用 深 而 宽 的 神经 网 络 需 要 强大 的 
计算 性 能 ， 这 也 就 解释 了 为 什么 直到 最 近 几 年 研究 人 员 才 开始 认真 探索 这 种 既 
深 又 宽 的 神经 网 络 的 问题 。 

更 好 的 学 习 算 法 和 不 同 种 的 非 线 性 关系 也 促使 了 DNN 的 成 功 。 随 机 梯度 
下 降 (SGD) 算法 在 大 多 数 训练 集 较 大 且 数 据 丰 富 的 情况 下 是 最 有 效 的 算 
Ye?) 。 最 近 ， 研 究 证 实 随机 梯度 下 降 (SCD) 可 以 有 效 地 实现 并 行 ， 一 种 方 
法 是 通过 异步 模式 !2 使 用 多 台 机 器 ， 另 一 种 方法 是 使 用 多 GPU 的 流水 线 型 的 
反 向 传播 算法 1] 。 此 外 ， 从 单个 或 小 批量 样本 中 估计 出 的 嘲 杂 梯度 使 得 SGD 
通常 能 让 训练 跳出 局 部 最 优 。 其 他 学 习 算法 如 Hessian free’) By Krylov sub- 
spacet™| 方 法 都 表现 出 了 类 似 的 能 

对 于 DNN 学 习 的 高 度 非 凸 优化 问题 ， 由 于 优化 是 从 初始 模型 开始 的 ， 所 
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以 很 明显 ， 更 好 的 参数 初始 化 技术 将 会 打造 出 更 好 的 模型 。 然 而 ， 不 明显 的 
是 : 如 何 有 效 和 高 效 地 初始 化 DNN 参数 以 及 如 何 使 用 大 量 的 训练 数据 来 缓解 
学 习 中 的 问题 。 对 于 这 些 问 题 ， 直 到 最 近 ， 文 献 [28, 20, 100, 64, 68, 
163, 164, 161, 323, 376, 414] 对 其 进行 了 探索 和 分 析 。 此 外 ， 之 前 讨论 中 
提出 的 无 监督 的 预 训练 方法 是 最 引 人 注 目的 DNN 参数 初始 化 技术 。 

DBN 预 训 练 并 不 是 唯一 可 以 使 DNN 有 效 初始 化 的 过 程 ， 另 一 种 性 能 相当 
的 无 监督 的 方法 是 : 对 DNN 进行 逐 层 地 预 训 练 ， 通 过 将 每 两 层 视 为 一 个 除 噪 
自 编码 器 ， 该 除 品 自 编码 器 通过 将 输入 节点 的 随机 子 集 设置 为 零 而 进行 正则 
$79) 。 另 一 种 方法 则 是 使 用 压缩 自 编码 器 ， 它 通过 使 输入 变量 具有 更 好 的 
和 鲁 棒 性 来 达到 同样 的 目的 ， 例 如 ， 对 于 输入 ， 它 通过 惩罚 隐 层 单元 的 激发 函数 
的 梯度 :3 来 达到 目的 。 此 外 ，Ranzato “ A FER T Ai Di St HS OT BK BL 
(SESM) ， 其 在 构建 DBN 模块 中 具有 和 RBM 非常 类 似 的 架构 ， 它 也 可 以 用 来 
有 效 地 初始 化 DNN 训练 。 除 了 使 用 贪心 的 逐 层 过 程 进行 无 监督 预 训 
练 .*'%”] ， 有 监督 的 预 训练 (有 时 称 为 判别 式 预 训练 ) 也 证 明 是 很 有 效 
的 6134,32] ， 并 且 在 有 标签 的 训练 数据 充足 的 情况 下 比 无 监督 的 预 训 练 技术 
表现 得 更 好 。 判 别 式 预 训 练 的 思想 是 : 从 一 个 经 过 BP 算法 训练 的 单个 隐 层 
MLP 开始 ， 每 一 次 需要 添加 一 个 新 的 隐 层 时 ， 用 一 个 随机 初始 化 的 新 的 隐 层 
和 输出 层 替 换 原 有 输出 层 ， 并 用 BP 算法 训练 全 新 的 MLP (或 DNN)。 与 无 监 
督 预 训练 技术 不 同 的 是 ， 判 别 式 预 训练 技术 需要 标签 。 

有 人 研究 人 员 将 深度 学 习 应 用 于 语音 和 视觉 ， 他 们 分 析 了 DNN 在 语音 和 图 
像 中 捕获 了 哪些 信息 ， 比 如 ， 文 献 [259] 用 一 种 降 维 方法 来 可 视 化 研究 通过 
DNN 学 习 到 的 特征 向 量 之 间 的 关系 。 他 们 发 现 ，DNN 的 隐藏 激活 向 量 保留 了 
与 多 个 尺度 上 的 特征 向 量 相 似 的 结构 ， 这 一 点 对 于 滤波 器 组 特征 (filterbank 
feature) 来 说 尤为 如 此 。 最 近 ，Zeiler 和 Fergus!“ 精心 设计 了 另 一 种 可 视 化 方 
法 ， 该 方法 基于 一 个 在 分 类 网 络 的 相反 方向 自 上 而 下 的 生成 过 程 ， 用 来 检测 深 
度 卷 积 网 络 从 图 像 数据 中 捕获 的 特征 。 深 层 网 络 的 强大 之 处 在 于 ， 它 们 拥有 在 
提取 合适 特征 的 同时 做 判别 的 能 力 '2") 。 

可 以 从 另 一 个 角度 来 了 解 这 个 发 展 历程 ， 即 用 “成 熟 度 曲线 ”来 回顾 人 
工 神经 网 络 的 历史 。 这 是 一 种 用 图 来 对 一 种 特定 技术 的 成 熟 期 、 接 受 程度 和 社 
会 应 用 进行 描述 的 方式 。 图 2. 1 显示 的 是 由 高 德 纳 咨 询 公 司 (Gartner) 绘制 的 
2012 版 的 成 熟 度 曲线 图 ， 用 来 展示 一 项 技术 或 应 用 是 如 何 随 着 时 间 推 移 而 发 
展 的 〈 按 五 个 阶段 : 科技 诞生 的 促 动 期 ， 过 高 期 望 的 峰值 期 ， 泡 沫 化 的 底 谷 
期 ， 稳 步 聆 升 的 光明 期 和 实质 生产 的 高 峰 期 ) ， 也 提供 了 一 种 管理 技术 布置 的 
方法 。 
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图 2.1 Gartner 技术 成 熟 度 曲线 展示 了 一 项 技术 的 五 个 阶段 


图 中 词语 翻译 对 照 表 










































































Technology Trigger 科技 诞生 的 促 动 
Peak of Inflated Expectations 过 高 期 望 的 峰值 
Trough of Disillusionment 泡沫 化 的 底 谷 期 
Slope of Enlightenment 稳步 怜 升 的 光明 
Plateau of Productivity 实质 生产 的 高 峰 
Plateau will be reached in 到 达 稳 定期 所 需 时 间 
Less than 2 years 少 于 两 年 
2 to 5 years 2 ~5 年 
5 to 10 years 5 ~10 年 
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Volumetric and Holographic Displays 立体 和 全 息 显 示 
Automatic Content Recognition 自动 内 容 识别 
3D Scanners 3D 扫描 
Autonomous Vehicles 自动 驾驶 
Mobile Robots 移动 式 机 器 人 
Internet of Things 物 联网 
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( 续 ) 
Silicon Anode Batteries 硅 阳 极 电池 
Speech- to- Speech Translation 语音 到 语音 的 翻译 
Crowdsourcing 众 包 模 式 
Big Data 大 数据 
Gamification 游戏 化 模式 
HTMIS 超 文本 标记 语言 
Hybrid Cloud Computing 混合 式 云 计算 
Wireless Power 无 线 网 
3D Printing 3D 打印 
BYOD 自 带 设备 
Complex- Event Processing 复杂 事件 处 理 
Social Analytics 社交 分 析 
Private Cloud Computing 私有 云 计算 
Application Stores 应 用 存储 
Augmented Reality 增强 实 境 技术 
In- memory Database Management Systems 内 存 数 据 库 管理 系统 
Activity Streams 活动 信息 流 
NFC Payment 近 场 无 线 支付 技术 
Internet TV 网 络 电视 
Audio Mining/ Speech Analytics 声 频 挖掘 /语音 分 析 
NFC 近 场 通信 技术 
Cloud Computing 云 计算 
Machine- to- Machine Communication Services 机 器 间 交 流 服务 
Mesh Networks; Sensor 网 状 网 络 传感器 
Gesture Control 手势 控制 
In- Memory Analytics 内 存 中 分 析 
Text Analytics 文本 分 析 
Home Health Monitoring 家 庭 健康 监视 
Hosted Virtual Desktops 虚拟 桌面 





Virtual Worlds 
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Consumerization 消费 端 化 
Biometric Authentication Methods 生物 特征 识别 方法 
Idea Management 创意 管理 
Consumer Telematics 消费 者 远程 信息 处 理 
Speech Recognition 语音 识别 
Predictive Analytics 预测 分 析 
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我 们 创建 图 2. 2 来 将 神经 网 络 的 不 同 阶段 与 成 熟 度 曲 线 的 不 同 阶段 对 应 起 
来 。 匮 峰 期 ( 纵 轴 上 的 “期 望 值 ”) 出 现在 20 世纪 80 年 代 末 和 90 年 代 初 ， 
此 时 被 称 为 神经 网 络 的 第 二 代 。DBN 和 用 于 训练 的 快速 算法 是 在 2006 发 明 
HJE] 当 DBN 被 用 在 初始 化 DNN 的 时 候 ， 学 习 算 法 的 效率 就 变 得 更 高 ， 
这 促进 了 学 术 界 持续 快速 地 产生 研究 成 果 (“光明 ”阶段 ， 见 图 2.2)。DBN 
和 DNN 的 产业 级 语音 特征 提取 和 识别 应 用 出 现在 2009 年 ， 当 时 产业 界 、 学 术 
界 以 及 深度 学 习 的 研究 专家 有 着 密切 的 合作 '8 "1 ， 这 种 合作 使 得 用 深度 学 习 
方法 进行 语音 识别 的 工作 得 到 快速 扩张 ， 并 取得 越 来 武大 的 成 功 呈 加 0 ， 
这 在 本 书后 面 的 内 容 中 将 有 所 提 及 。“ 实 质 生 产 的 高 峰 期 ”阶段 的 高 度 还 没有 
达到 ， 预 计 将 高 于 常规 曲线 (图 2.2 中 标 有 问号 的 圆圈 ) ， 在 图 中 用 直线 上 升 
的 虚线 标记 。 
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(industry) 


图 2.2 将 Gartner 的 成 熟 度 曲线 应 用 于 分 析 人 工 神经 网 络 的 发 展 
































中 词语 翻译 对 照 表 
Neural Network History 神经 网 络 历史 
Expectations or media hype 期 望 或 媒体 宣传 
Gartner Hype Cycle 高 德 纳 的 技术 成 熟 度 曲线 
Input layer 输入 层 
Hidden layer 隐 层 
Output layer 输出 层 








深度 学 习 ， 方 法 及 应 用 

































































( 续 ) 
Synapses 突 触 
Technology Trigger 科技 诞生 的 促 动 
Trough of Disillusionment 泡沫 化 的 底 谷 期 
Peak of Inflated Expectations 过 高 期 望 的 峰值 
Slope of Enlightenment 稳步 候 升 的 光明 
Plateau of Productivity 实质 生产 的 高 峰 
DNN 深度 神经 网 络 
DNN (industry) 深度 神经 网 络 (产业 级 ) 
time 时 间 
图 2. 3 中 所 示 的 是 语音 识别 的 历史 ， 由 NIST 编制 ， 针 对 一 些 越 来 越 具 有 
挑战 性 的 语音 识别 任务 ， 把 词 错 误 率 (WER) 作为 一 个 时 间 函 数 来 绘制 图 表 。 


需要 注意 的 是 ， 所 有 的 WER 结果 都 是 用 CMM- HMM 技术 获得 的 。 当 从 图 2.3 
中 选取 了 一 个 极 具 挑战 性 的 任务 (Switchboard) 后 ， 我 们 看 到 了 这 样 的 结 
一 条 在 使 用 GMM- HMM 技术 多 年 中 一 直 保 持平 坦 的 曲线 在 使 用 了 DNN 技术 
Ja, WER 急剧 下 降 〈( 见 图 2. 4 中 星 标记 ) 。 





The History of 
Automatic Speech Recognition Evaluations at NIST 


NIST STT Benchmark Test History - May. ’09 


100% 












Meeting Speech 


Read a A> 4 Meeting -SDMO v4 
ea =e 7 
S| h J ar Z SL AA meaing-wpow 

peec| NY = 

CTS Arabic (UL) 
Meeting -IHM 

Air Travel 

9 Planning Kiosk ~~ News Mandarin 10X 
Speech News Arabic 10X 


@ TSFisher(ULy 


NewsEnglish 1X 





1 
| 20k a 
= 10% |-+ | 
m B 
e A NS 
a 
4% |è = 


1 
| Range of Human Error In Transcription | 


News English 10X 


WER(% 








2% | + + 











1% aaa Hawn roar thea tious amet“ aas yaaa taar rough raad annt “snot anoh aun oui hiia z iir 2008 iia Suto ai 


图 2.3 著名 的 NIST 图 
(显示 了 针对 一 些 越 来 越 具有 挑战 性 的 语音 识别 任务 ,用 GMM- HMM 
方法 得 到 的 语音 识别 错误 率 的 发 展 历史 ) 








2 深度 学 习 的 历史 


图 中 词语 翻译 对 照 表 



























































The History of Automatic Speech 关 国 国家 标准 与 技术 研究 院 发 布 的 自动 语音 识别 评测 历史 
Recognition Evaluations at NIST 
NIST STT Benchmark 美国 国家 标准 与 技术 研究 院 发 布 的 语音 
Test History- May.’ 09 到 文字 转换 技术 基准 测试 历史 ，2009 年 5 月 
Read Speech 朗读 语音 
Air Travel Planning Kiosk Speech 航空 旅行 计划 咨询 语音 
Broadcast Speech 广播 语音 
Conversation Speech 会 话语 音 
Non- English 非 英语 
Varied Microphones 各 式 麦克 风 
News English Unlimited 无 约束 的 英语 新 闻 
Meeting Speech 会 议 语音 
Range of Human Error in Transcription 人 工 转 录 错 误区 间 
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图 2.4 从 图 2.3 的 一 个 任务 中 提取 WER, 
并 添加 了 由 DNN 技术 获得 的 显著 降低 的 WER (用 星 标记 ) 
图 中 词语 翻译 对 照 表 
































Read Speech 朗读 语音 
Air Travel Planning Kiosk Speech 航空 旅行 计划 咨询 语音 
Broadcast Speech 广播 语音 
Conversation Speech 会 话语 音 
Non- English 非 英语 
Varied Microphones 各 式 麦克 风 
News English Unlimited 无 约束 的 英语 新 闻 
Meeting Speech 会 议 语音 
人 工 转 录 错 误区 间 
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下 一 章 中 ， 我 们 将 首先 对 深度 学 习 的 各 种 体系 结构 进行 概述 ， 随 后 就 一 
些 学 者 们 广泛 研究 的 结构 和 方法 进行 更 详细 的 论述 ， 也 会 讨论 一 些 在 信号 与 
言 息 处 理 中 的 应 用 ， 包 括 语音 和 音频 、 自 然 语言 、 信 息 检 索 、 视 觉 和 多 模式 
处 理 。 
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3.1 三 元 分 类 方式 


如 前 所 述 ， 深 度 学 习 指 的 是 一 类 广泛 的 机 器 学 习 技术 和 架构 ， 其 特点 是 采 
用 多 层 的 非 线性 信息 处 理 方法 ， 这 种 方法 在 本 质 上 是 分 层 的 。 根 据 这 些 结构 和 
技术 不 同 的 应 用 领域 ， 如 合成 /生成 或 识别 /分 类 ， 我 们 可 以 大 致 把 这 些 结构 分 
为 三 类 : 

(1) 无 监督 或 生成 式 学 习 的 深度 网 络 ”针对 模式 分 析 和 合成 任务 ， 用 于 
在 没有 目标 类 标签 信息 的 情况 下 捕捉 观测 到 的 或 可 见 数据 的 高 阶 相关 性 。 各 种 
文献 中 的 无 监督 特征 或 表达 学 习 指 的 就 是 这 一 类 深度 网 络 。 当 用 于 生成 模式 
时 ， 它 也 可 以 用 来 描述 可 见 数据 和 其 相关 分 类 的 联合 概率 分 布 ， 此 时 它 具 有 可 
利用 的 类 别 标签 ， 而 且 这 些 类 别 标签 被 看 作 是 可 见 数据 的 一 部 分 。 在 后 一 种 情 
况 中 ， 利 用 贝 叶 斯 准则 可 以 把 生成 式 学 习 网 络 转换 为 判别 式 学 习 网 络 。 

(2) 有 监督 学 习 的 深度 网 络 ”直接 提供 用 于 模式 分 类 目的 的 判别 能 
它 的 特点 是 描述 了 可 见 数据 条 件 下 的 类 别 后 验 分 布 。 对 于 这 种 有 监督 的 学 习 ， 
目标 类 别 标签 总 是 以 直接 或 间接 形式 给 出 ， 所 以 它们 也 被 称 作 判别 式 深 度 
网 络 。 

(3) 混合 深度 网 络 ”目标 是 判别 式 模型 ， 往 往 以 生成 式 或 无 监督 深度 网 
络 的 结果 作为 重要 辅助 ， 可 以 通过 更 好 地 优化 和 正则 化 类 别 (2) 中 的 深度 网 
络 来 实现 ， 也 可 以 通过 在 对 类 别 (1) 中 所 述 的 深度 生成 式 或 无 监督 深度 网 络 
的 参数 进行 估计 时 ， 使 用 判别 式 准则 来 实现 。 

注意 上 述 (3) 中 的 “混合 ”一 词 和 有 些 文献 中 的 用 法 会 有 不 同 。 在 这 些 
文献 中 “混合 ” 指 的 是 混合 系统 ， 即 把 神经 网 络 的 输出 概率 送 入 到 HMM 的 话 
PAM ABER 8H 

按照 通常 采用 的 机 器 学 习惯 例 (例如 ,文献 [264] 中 第 28 章 和 文献 
[95] )， 自 然 地 把 深度 学 习 技 术 分 为 深度 判别 式 模型 ( 例如， 深度 神 经 网 络 
DNN、 北 归 神 经 网 络 RNN、 卷 积 神经 网 络 CNN 等 ) 和 生成 式 / 无 监督 模型 
(例如 ， 受 限 玻 尔 效 曼 机 RBM、 深 度 置信 和 网络 DBN、 深 度 玻 尔 效 曼 机 DBM, 
正则 化 的 自 编码 器 等 ) ， 然 而 这 种 二 元 分 类 方法 忽略 了 通过 深度 学 习 研 究 所 获 
得 的 重要 观点 ， 即 生成 式 和 无 监督 学 习 模 型 如 何 通过 更 好 地 进行 正则 化 与 优 
化 ,来 大 幅 提高 DNN 和 其 他 深度 判别 式 和 监督 学 习 模 型 的 训练 效果 。 同 时 ， 
无 监督 学 习 的 深度 网 络 并 不 一 定 必 须 是 概率 模型 ， 也 不 一 定 能 从 模型 (例如 ， 
传统 的 自 编 码 器 、 稀 玻 编码 网 络 等 ) 中 得 到 有 意义 的 采样 。 我 们 注意 到 最 近 
的 研究 对 传统 的 除 噪 自 编 码 器 进行 了 扩展 ， 使 得 它们 可 以 高 效 地 采样 ， 从 而 成 
HERRAS 。 然 而 ， 传 统 的 二 元 分 类 的 确 指出 了 无 监督 和 有 监督 学 习 
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深度 神经 网 络 的 一 些 关 键 差 异 。 对 这 两 类 模型 进行 比较 可 以 发 现 ， 深度 有 监督 
的 学 习 模型 (如 DNN) 的 训练 和 测试 通常 更 高 效 ， 构 建 更 灵活 ， 也 更 适合 于 
复杂 系统 的 端 到 端 学 习 〈 例 如 ， 非 近似 推断 (no approximate inference) 和 环 
路 信念 传播 (loopy belief propagation) ) 。 另 一 方面 ， 深 度 无 监督 学 习 模 型 ， 尤 
其 是 概率 生成 模型 ,更 容易 理解 ， 更 容易 敬 入 领域 知识 ， 更 容易 组 合 ， 更 容易 
对 不 确定 性 进行 处 理 ， 但 对 于 复杂 系统 ， 它 们 通常 在 推断 和 学 习 上 很 难 人 处理。 
我 们 提出 的 三 元 分 类 也 仍然 包含 以 上 区 别 ， 因 此 三 元 分 类 贯穿 全 书 。 

下 面 我 们 回顾 上 述 三 个 类 别 中 具有 代表 性 的 工作 ， 表 3. 1 中 总 结 了 几 个 基 
本 的 定义 ， 这 些 深度 结构 的 应 用 将 在 第 7 ~ 11 章 进行 介绍 ， 包 括 有 监督 无 监 
督 和 混合 学 习 。 











表 3.1 深度 学 习 基 本 术语 


深度 学 习 (Deep Learning) : 机 器 学 习 的 一 类 技术 ， 它 通过 分 层 结 构 的 分 阶段 信息 处 理 来 探索 无 监 
督 的 特征 学 习 和 模式 分 析 、 分 类 。 深 度 学 习 的 本 质 是 计算 观测 数据 的 分 层 特征 或 表示 ， 其 中 高 层 
特征 或 因子 由 低层 得 到 。 深 度 学 习 方法 发 展 迅速 ， 其 中 包括 神经 网 络 、 层 次 概率 模型 和 一 系列 有 
监督 和 无 监督 特征 学 习 算法 。 
深度 置信 网 络 ( Deep Belief Network, DBN): 由 多 层 随 机 隐 变 量 组 成 的 概率 生成 式 模型 ， 最 高 的 
两 层 之 间 由 无 向 对 称 边 连 接 ， 低 层 接 受 来 自 上 一 层 的 自 顶 向 下 的 有 向 边 。 


玻 尔 兹 曼 机 (Boltzmann Machine, BM): 具有 对 称 型 连接 的 网 络 ， 它 由 与 神经 元 相似 的 单元 构 
成 ， 能 够 控制 随机 决策 开关 的 闭合 。 










































































受 限 玻 尔 效 曼 机 (Restricted Boltzmann Machine, RBM); 一 种 特殊 的 BM， 它 由 一 个 可 见 单元 层 
和 一 个 隐 单 元 层 组 成 ， 而 且 每 条 边 必 须 连接 一 个 可 见 单元 和 一 个 隐 单 元 ， 同 层 单元 间 无 连接 。 
深度 神经 网 络 (Deep Neural Network, DNN): 一 种 具有 多 个 隐 层 的 多 层 感 知 器 ， 其 权 值 是 全 部 
连接 的 ， 并 且 经 常 以 无 监督 或 有 监督 的 方式 初始 化 。( 在 2012 年 之 前 的 文献 中 ，DBN 常 被 误 用 来 
指 DNN。) 
深度 自 编码 器 (Deep Autoencoder) : 一 种 “判别 式 ”DNN， 它 的 目标 输出 是 输入 数据 本 身 ， 而 不 
是 类 别 标签 ， 因 此 它 是 无 监督 学 习 模 型 。 当 以 除 噪 准则 (denoising criterion) 训练 深度 自 编码 器 
时 ， 它 也 可 以 看 作 是 一 个 生成 模型 并 能 从 中 采样 。 
分 布 式 表 征 (Distributed Representation); 观测 数据 的 内 部 表达 ， 以 众多 隐 因 子 之 间 的 相互 作用 
来 建 模 。 从 其 他 因子 结构 学 习 到 的 某 个 因子 可 以 很 好 地 推广 到 新 的 结构 。 分 布 式 表征 经 常 出 现在 
“连接 ” (connectionist) 神经 网 络 中 ， 其 中 ， 一 个 概念 (concept ) 由 许多 单元 (unit) 的 行为 模式 
表示 ， 同 时 ， 同 一 个 单元 通常 对 许多 概念 都 有 贡献 。 这 种 多 对 多 的 映射 具有 一 个 重要 的 优点 : E 
们 提供 了 数据 内 部 结构 表达 的 鲁 棒 性 。 男 一 个 重要 的 优点 是 ， 它 们 促进 了 概念 和 关系 的 泛 化 ， 从 
而 具有 推理 能 力 。 




















































































































3.2 监督 和 生成 式 学 习 深 度 网 络 


无 监督 学 习 是 指 在 学 习 过 程 中 不 使 用 特定 任务 的 监督 信息 (如 目标 类 别 
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标签 ) 。 这 一 类 深度 网 络 大 多 可 以 通过 从 网 络 中 采样 来 有 效 生 成 样本 ， 因 此 是 
生成 式 模型 ， 例 如 RBM, DBN, DBM 和 广义 除 噪 自 编码 器 (generalized de- 
noising autoencoders ) [23] 。 然 而 这 一 类 别 中 的 革 些 网 络 采样 并 不 容易 5 因而 本 质 
上 并 不 是 生成 式 的 ， 例 如 稀 玻 编码 网 络 (sparse coding networks) 和 原始 形式 
的 深度 自 编码 需 (deep autoencoders ) 。 

在 生成 式 或 无 监督 深度 网 络 的 各 个 子 类 中 ， 基 于 能 量 的 深度 模型 是 最 常见 
的 ”23.%| ， 我 们 将 会 在 第 4 章 对 具有 原始 形式 的 深度 自 编码 器 进行 更 详细 
HERR OS ON ， 它 们 是 这 种 无 监督 模型 的 典型 例子 。 大 多 数 其 他 形式 的 深度 
自 编码 器 本 质 上 也 是 无 监督 的 ， 但 其 特性 和 实现 却 完全 不 同 ， 例 如 转换 自 编 码 
at (transforming autoencoders ) 160) PHU Hs i tS ( predictive sparse coders ) 
及 其 堆 千 形式 、 除 品 自 编码 髓 (de-noising autoencoders ) 及 其 堆 苹 形式 1， 

具体 地 说 ， 在 除 品 自 编码 器 中 ， 输 入 向 量 首 先 被 “破坏 ”， 例 如 ， 随 机 选 
择 一 定 比 例 的 输入 并 把 它们 设 为 零 或 加 入 高 斯 噪声 ， 然 后 调整 参数 ， 使 隐 层 编 
码 结 点 重 构 出 原始 的 、 未 损坏 的 输入 数据 ， 调 整 参数 所 使 用 的 准则 包括 原始 输 
入 与 重建 给 入 的 最 小 均 方 误差 和 KL 散 度 准 则 。 将 未 损坏 数据 进行 转换 ， 获 得 
编码 表示 ， 并 将 其 作为 下 一 层 堆 共 自 编码 带 的 输入 。 

男 一 类 有 生成 能 力 的 深度 无 监督 模型 是 深度 玻 尔 效 曼 机 
(DBM) 34353638 | DBM 包含 很 多 隐 变 量 层 ， 并 且 同 一 层 变量 之 间 没 有 连接 。 
这 是 玻 尔 效 曼 机 (BM) 中 的 一 个 特例 ， 一 般 玻 尔 效 曼 机 是 一 种 使 用 随机 机 制 
控制 节点 开关 的 对 称 网 络 ， 虽 然 有 简单 的 学 习 算 法 ， 但 研究 起 来 仍然 很 复杂 ， 
训练 起 来 很 慢 。 在 DBM 中 ， 每 一 层 会 捕捉 与 下 面 一 层 隐 特征 激励 之 间 的 复杂 
且 高 阶 的 相关 性 。DBM 具有 学 习 复 杂 的 内 部 表达 的 潜力 ， 非 常 适合 解决 目标 
识别 和 语音 识别 问题 。 此 外 ， 对 于 特定 任务 ， 可 以 由 大 量 的 未 标注 的 感知 输入 
建立 高 层次 的 表示 ， 然 后 可 以 用 非常 有 限 的 标注 数据 对 模型 进行 微调 。 

当 DBM 的 隐 层 数 为 1 时 ， 我 们 得 到 受 限 玻 尔 效 曼 机 (RBM) 。 与 DBM 一 
样 ，RBM 中 没有 隐 层 到 隐 层 和 显 层 到 显 层 的 连接 。RBM 的 主要 优点 是 ， 通 过 
组 合 许多 RBM， 把 上 一 层 RBM 的 特征 激励 作为 下 一 层 的 训练 数据 ， 可 以 高 效 
地 对 隐 层 进行 学 习 。 这 样 的 组 合 就 引出 了 深度 置信 网 络 (Deep Belief Network, 
DBN) ， 我 们 会 在 第 5 章 中 详细 讲解 DBN 和 RBM, 

标准 的 DBN 在 底层 被 扩展 成 为 因子 化 高 阶 玻 尔 效 曼 机 (Factored Higher- 
order Boltzmann Machine) , 在 音素 识别 !% 和 计算 机 视觉 ?1 中 得 到 了 较 好 的 结 
果 ， 这 个 称 为 均值 - 协 方差 受 限 玻 尔 效 曼 机 (mcRBM) 的 模型 ， 其 改进 了 标准 
RBM 表示 数据 协 方差 结构 的 能 力 。 然 而 ，mcRBM 很 难 训练 ， 并 且 很 难 在 深层 
结构 的 较 高 层 中 使 用 meRBM， 文 献 中 已 发 表 的 较 好 的 结果 不 易 重 现 。 区 分 性 
言 息 常 用 于 对 较 高 层 的 RBM 进行 微调 ， 然 而 在 Dahl 等 人 中 描述 的 结构 中 ， 
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由 于 计算 代价 较 高 ， 所 以 在 完全 深度 置信 网 络 的 meRBM 的 参数 微调 过 程 中 没 
有 利用 区 分 性 信息 。 随 后 的 工作 表明 ， 如 果 使 用 说 话 人 适应 过 的 特征 ， 即 一 种 
去 除了 特征 中 变化 的 特征 ， 会 使 得 mcRBM RARO”, 

另 一 种 有 代表 性 的 可 以 用 来 进行 无 监督 (和 有 监督 ) 学 习 的 深度 生成 式 
网 络 是 和 积 网 络 (Sum- product Network , SPN) {151 SPN 是 有 向 无 环 图 , € 
将 观测 变量 作为 叶子 节点 , 将 “和 ”与 “ 积 ” 操 作 作 为 深度 网 络 的 内 部 节点 。 
“和 ”节点 提供 混合 模型 ，“ 积 ”节点 建立 特征 层次 。“ 完 整 性 ”和 “一 致 性 ” 
以 一 种 很 好 的 方式 约束 了 SPN, AH EM 算法 和 反 向 传播 算法 进行 SPN 的 学 
习 ， 学 习 过 程 从 密集 型 SPN 开始 。 然 后 ， 通 过 学 习 其 权 值 来 找到 SPN 结构 ， 
权 值 为 0 时 表示 删除 连接 。 进 行 SPN 学 习 的 主要 困难 是 ， 学 习 信号 (如 梯度 ) 
在 向 深层 传递 时 会 迅速 被 稀释 。 经 验 上 解决 该 问题 的 方案 是 存在 的 ， 参 见 文献 
[289] 。 该 篇 早期 的 论文 指出 ， 尽 管 SPN 有 令 人 满意 的 生成 式 特性 ， 但 是 很 难 
利用 区 分 性 信息 调整 参数 ， 这 限制 了 它 在 分 类 任务 上 的 有 效应 用 。 然 而 ， 随 后 
的 工作 克服 了 这 一 困难 ,文献 [125] 为 训练 SPN 设计 了 一 种 高 效 的 反 向 传播 
式 的 区 分 性 训练 算法 。 重 要 的 是 ， 基 于 条 件 概 率 导数 的 标准 梯度 下 降 算法 也 存 
在 和 和 常规 DNN 训练 时 同样 的 梯度 扩散 问题 。 在 学 习 SPN 参数 的 过 程 中 缓解 这 
个 问题 的 技巧 是 ， 将 边缘 推断 替换 成 最 可 能 的 隐 变 量 状态 ， 并 只 通过 “ 硬 ” 
对 齐 方式 进行 梯度 传播 。Gens 和 Domingo 在 文献 [125] 报告 了 他 们 在 小 尺度 
图 像 识 别 任务 上 的 优异 成 绩 。 

递归 神经 网 络 (Recurrent Neural Networks, RNN) 可 以 认为 是 另 一 类 用 于 
无 监督 (和 有 监督 ) 学 习 的 深度 网 络 ， 它 的 深度 其 至 可 以 达到 和 输入 数据 序 
列 的 长 度 一 样 。 在 无 监督 学 习 模 式 下 ，RNN 被 用 来 根据 先前 的 数据 样本 预测 
未 来 的 数据 序列 ， 并 且 学 习 过 程 中 没有 用 到 类 别 信息 。RNN 非常 适合 序列 数 
据 (例如 ,语音 和 文本 ) 建 模 ， 但 最 近 才 得 以 广泛 使 用 ， 部 分 原因 是 由 于 梯 
度 弥散 或 梯度 爆炸 问题 ， 它 们 很 难 训练 来 捕捉 长 时 相关 性 (最 早 可 参见 20 世 
纪 90 年 代 的 论文 [29，167] ) 。 现 在 可 以 相对 容易 地 处 理 这 些 问题 汪汪 1。 
最 近 在 Hessian- free 优化 5 研究 方面 的 进展 ， 在 一 定 程 度 上 解决 了 这 个 问题 ， 
该 方法 使 用 了 近似 二 阶 信息 或 随机 曲率 估计 。 在 近期 的 研究 工作 中 '3* 1 ， 以 
Hessian- free 优化 方法 训练 的 RNN 作为 生成 式 深度 网 络 ， 被 用 在 了 字 级 语言 建 
模 任务 中 ， 该 任务 引入 门 控 连 接 ， 以 允许 当前 输入 字符 预测 从 一 个 隐 状 态 癌 量 
到 下 一 个 的 转移 。 已 证 明 ， 这 样 的 生成 式 RNN 模型 能 够 很 好 地 产生 连续 的 文 
本 字符 。Bengio 等 人 和 Sutskever' 251 探索 了 不 同 的 用 于 训练 生成 式 RNN 的 
随机 梯度 下 降 优 化 算法 ， 并 证 明了 这 些 算法 可 以 超越 Hessian- free 优化 方法 。 
Milotov £A P X} RNN 在 语言 建 模 上 的 优异 结果 进行 了 报告 。 最 近 , Mesnil 等 
APPIA Yao AM FRAGT RNN 在 口语 理解 上 取得 的 成 功 。 我 们 将 在 第 8 章 
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回顾 这 些 工 作 。 

在 语音 识别 研究 中 ,探索 利 用 人 类 发 音 机 制 来 构建 动态 和 深度 结构 的 概率 
生成 模型 的 工作 已 经 有 很 长 的 历史 了 ， 参 考 文献 [76] 可 以 获得 全 面 了 解 。 
具体 而 言 ， 早 期 工作 3.923 避 通 过 引入 HMM 参数 上 多 项 式 轨迹 形式 的 动 
态 约 束 ， 推 广 并 扩展 了 传统 的 浅 层 、 条 件 独 立 的 HMM 结构 。 最 近 出 现 了 此 方 
法 的 一 个 变种 ， 其 时 变 HMM ( time- varying HMM) 参数 的 学 习 采 用 了 不 同 的 
学 习 技术 ， 这 个 方法 被 应 用 到 了 提高 语音 识别 的 鲁 棒 性 上 '* 中 。 类 似 的 轨迹 
HMM (trajectory HMM) 也 构成 了 参数 化 语音 合成 的 基础 3% 。 随 后 ， 
人 们 在 动态 模型 中 增加 了 一 个 新 的 隐 层 ， 明 确 地 考虑 了 人 类 语音 产生 过 程 中 以 
日 标 为 & 向 的 发 音 特 PAE (45,73,74,83,96,75,90,231 , 232,233,251 ,282] 3 在 最 近 的 人 研 究 
中 :29 ， 对 于 这 种 具有 隐 层 动态 性 的 深度 结构 ， 更 有 效 的 实现 方式 是 通过 
非 递 归 的 或 有 限 冲 击 响应 滤波 需 (Finite Impulse Response, FIR) 来 实现 的 。 
上 述 深层 结构 的 语音 生成 模型 可 以 被 看 作 更 一 般 化 的 动态 网 络 的 特殊 实例 或 更 
一 般 化 的 动态 图 模型 。 图 模型 通过 许多 隐 层 来 描述 语音 生成 中 变量 之 间 
的 复杂 关系 ， 由 于 配备 了 强大 的 图 建 模 工 具 ， 话 音 深 度 结构 最 近 已 被 成 功 地 应 
用 于 解决 非常 棘手 的 单 通道 、 多 说 话 人 语音 识别 问题 中 ， 其 中 多 人 混合 语音 是 
可 见 变 量 ， 非 混合 语音 由 深度 生成 结构 中 的 一 个 新 的 隐 层 表示 ' ”1 。 深 度 生 
成 图 模型 在 许多 应 用 中 的 确 是 非常 有 效 的 工具 ， 因 为 它们 具有 骨 入 领域 知识 的 
能 力 。 然 而 ， 它 们 却 往 往 被 用 于 不 恰当 的 近似 推理 、 学 习 、 预 测 和 拓扑 结构 设 
计 中 ， 这 些 都 源 于 大 多 数 实际 任务 中 国有 的 难 解 性 。 这 个 问题 已 经 在 Stoyanov 
等 人 最 近 的 工作 [352] 中 有 所 涉及 ， 它 指出 了 深度 生成 式 图 模型 在 今后 实际 
应 用 中 更 有 用 和 有 趣 的 一 个 方向 。Bengio 等 人 最 近 提出 了 解决 这 个 棘手 问题 的 
更 激进 的 方法 ， 该 方法 完全 避免 了 边缘 化 隐 变 量 的 要 求 。 

用 于 大 规模 语音 识别 和 理解 的 标准 统计 方法 将 用 于 语音 声学 建 模 的 〈 浅 
层 ) 隐 马 尔 可 夫 模 型 和 表示 不 同 层级 的 自然 语言 高 层 结构 相 结合 。 这 种 结合 
的 层次 模型 在 一 定 程度 上 可 以 视 为 深度 生成 结构 ， 它 的 动机 和 一 些 技 术 细 节 参 
见 最 近 一 本 书 [200] 中 第 7 章 “ 层 级 HMM” 或 HHMM 的 介绍 。 包 括 HHMM 
和 层级 HMM (Layered HMM) 的 一 些 相关 模型 参见 文献 [116] 和 [271]， 
这 些 文献 中 有 更 深入 的 技术 介绍 和 数学 推导 。 把 这 些 早 期 深度 模型 作为 有 向 图 
模型 来 表述 ， 忽 略 了 最 近 深 度 生成 式 网 络 中 体现 的 “分 布 式 表示 ”的 这 一 重 
要 方面 ， 这 些 深度 生成 式 网 络 包 括 本 童 前 面 讨论 的 DBN 和 DBM。 对 这 一 方面 
进行 补充 将 有 助 于 改进 这 些 生 成 式 模型 。 

最 后 ， 基 于 神经 网 络 架 构 的 动态 或 时 间 递 归 生 成 式 模 型 被 用 于 人 体 运 动 建 
Be 、 自 然 语 言 和 自然 景物 分 析 ”” 。 有 趣 的 是 ， 在 后 一 个 模型 中 ， 学 习 
算法 能 够 自动 确定 最 优 的 模型 结构 ， 而 其 他 深度 模型 如 DBN 只 有 预先 定义 了 
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模型 结构 ， 才 能 进行 参数 的 学 习 。 值 得 注意 的 是 ， 可 以 使 用 最 大 间隔 (max 
margin) 结构 预测 框架 来 探寻 自然 场景 图 像 和 自然 语言 语句 中 的 递归 结构 。 结 
果 表 明 ， 这 个 方法 能 识别 出 来 包含 在 图 片 和 句子 中 的 单元 以 及 这 些 单元 间 相 互 
结合 所 形成 的 整体 。 





3.3 监督 学 习 深 度 网 络 


在 语音 以 及 信号 处 理 领 域 中 ， 用 于 有 监督 学 习 的 很 多 判别 技术 都 是 浅 层 结 
构 ， 比 如 HMMS? 127-147. 186,188,290,394.418] 及 条 件 随 机 场 (CRE) [151 155.281 400.429.4461 。 
条 件 随机 场 在 输入 特征 和 转移 特征 之 间 建 立 了 线性 联系 ， 其 本 质 上 是 一 种 浅 层 
模型 。 在 将 条 件 随机 场 和 经 过 区 分 性 训练 的 高 斯 模型 以 及 隐 马 尔 可 夫 模 型 之 间 
建立 等 价 关系 后 ， 其 浅 层 性 质 就 变 得 显而易见 了 "1 。 近 来 ， 深 度 结构 的 条 件 
随机 场 将 其 上 一 层 的 输出 及 原始 输入 数据 作为 下 一 层 的 输入 "*]。 各 种 各 样 的 
深度 结构 条 件 随 机 场 (deep- structured CRF) 已 经 成 功 地 被 用 于 音素 识别 |、 
说 话 人 辨识 9 以 及 自然 语言 处 理 中 i。 然而 ， 至 少 在 音素 识别 任务 中 ， 采 
用 纯 判 别 ( 非 生成 ) 模型 的 深度 条 件 随机 场 的 表现 还 没有 包含 深度 置信 网 络 
(DBN) 的 混合 方法 好 ， 我 们 在 下 面 的 章节 中 将 提 到 DBN。 

Morgan 在 文献 【261] 中 对 其 他 主要 用 于 语音 识别 的 判别 模型 给 出 了 很 精 
彩 的 综述 ， 这 些 模型 主要 基于 传统 的 神经 网 络 或 者 是 采用 由 随机 初始 化 的 反问 
传播 学 习 得 到 的 MLP 结构 。 这 篇 文献 探讨 了 增加 每 层 神经 网 络 的 宽度 以 及 增 
加 神经 网 络 结构 整体 深度 的 重要 性 。 应 特别 指出 的 是 ， 有 一 类 深度 神经 网 络 模 
型 被 看 作 目 前 应 用 广泛 的 “串联 ”法 (tandem)" ”| 的 基础 ， 同 时 判别 式 神 经 
网 络 的 输出 被 当 作 HMM 中 的 观测 变量 。 这 一 方面 有 代表 性 的 工作 可 以 参考 文 
WK [193, 283], 

最 近 的 文献 [106, 110, 218, 366, 377] 提出 了 一 种 新 的 深度 学 习 结构 ， 
A IN BK A UR BE HE W (Deep Stacking Network, DSN), RAK BOON 与 
核 "” 两 个 变种 版 本 。 它 们 依赖 于 少 到 几乎 没有 的 生成 元 素 ， 就 可 以 进行 可 扩 
展 、 并 行 的 和 逐 块 的 学 习 ， 从 而 完成 判别 工作 。 我 们 将 在 第 6 章 中 详细 讨论 这 
种 用 来 判别 的 深度 结构 。 

如 前 所 述 ，RNN 已 经 作为 一 种 生成 模型 来 使 用 ， 和 神经 预测 模型 "” 一 样 ， 
它 拥有 一 个 相似 的 生成 机 制 。RNN 也 可 以 当 作 判别 式 模 型 来 使 用 ， 此 时 的 输 
出 是 一 组 和 输入 数据 序列 相关 联 的 标签 序列 。 要 指出 的 是 ， 这 样 的 判别 式 
RNN 或 序列 模型 很 早 以 前 已 经 应 用 到 语音 中 ， 但 效果 有 限 。 在 文献 [17] ,使 
用 判别 式 概率 准则 将 HMM 和 神经 网 络 一 起 来 训练 。 在 文献 [304] 中 ,一 个 
单独 的 HMM 在 训练 中 用 来 对 序列 进行 分 段 ， 同 时 该 HMM 也 被 用 于 将 RNN 分 
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类 结果 转化 成 标签 序列 。 然 而 ， 当 HMM 用 于 这 种 目的 时 ， 并 不 会 体现 出 RNN 
全 部 的 优势 。 

最 近 提 出 来 的 一 系列 新 的 模型 和 方法 3% ， 通 过 把 长 短 时 记忆 
( Long- Short-Term Memory) 仁和 人 到 模型 中 以 使 RNN 本 身 能 用 于 序列 分 类 ， 无 
须 对 训练 数据 预 分 段 以 及 对 输出 数据 后 处 理 。 隐 藏 在 这 种 方法 背后 的 观点 是 ， 
RNN 的 输出 是 在 给 出 输入 序列 的 情况 下 所 有 可 能 的 标签 序列 的 条 件 分 布 。 那 
么 ， 通 过 一 个 可 微 的 目标 函数 能 够 最 优化 标签 序列 的 条 件 分 布 ， 在 这 里 ， 算 法 
能 自动 进行 数据 分 段 。 这 种 方法 的 有 效 性 已 经 在 手写 体 识别 以 及 小 型 语音 任务 
中 "2 得 到 了 验证 ， 这 部 分 将 会 在 本 书 第 7 章 得 到 更 加 详细 的 讨论 。 

卷 积 神经 网 络 (Convolutional Neural Network, CNN) 是 另 一 种 类 型 的 判别 
式 深度 结构 ， 它 的 每 个 模块 都 是 由 卷 积 层 (convolutional layer) 和 池 化 层 
(pooling layer) 组 成 。 这 些 模块 通常 是 逐个 症 加 的 ， 或 在 上 面 放 一 个 深度 神经 
网 络 ， 以 形成 深度 模型 ”1 。 卷 积 层 共享 许多 权 值 ， 池 化 层 对 卷 积 层 的 输出 进 
行 降 采 样 ， 减 少 了 下 面 一 层 的 数据 率 。 卷 积 层 中 的 权 值 共 享 和 适当 的 池 化 策 
W, E CNN 具有 一 些 “ 不 变 (invariance)” 特 性 〈 如 平移 不 变性 ) 。 有 些 文献 
指出 ， 这 种 有 限 的 不 变性 或 等 方差 性 (equi- variance) 对 于 复杂 的 模式 识别 任 
务 而 言 并 不 能 完全 胜任 ， 所 以 需要 提出 一 些 用 于 处 理 更 广 范围 不 变性 的 有 效 方 
法 5 。 虽 然 如 此 ， 人 们 发 现 CNN 在 计算 机 视觉 或 者 图 像 识别 任务 中 非常 有 
BEA, 96,57,8 198,20.212.84) 。 最 近 ， 将 用 于 图 像 分 析 的 CNN 进行 合理 改造 ， 同 时 
考虑 到 语音 的 特点 ，CNN 在 语音 识别 方面 也 产生 了 效果 ”2 ”2 。 我 们 将 
在 本 书 第 7 章 中 详细 讨论 这 些 应 用 。 

需要 指出 的 是 ， 语 音 识 别 早 期 发 展 起 来 的 延 时 神经 网 络 (TDNN ) 7°?) n] 
以 看 成 是 CNN 的 一 种 特殊 情况 或 其 前 身 ， 即 共享 权 值 被 限制 在 单一 的 时 间 维 
度 上 ， 且 没有 池 化 层 。 直 到 最 近 ， 研 究 人 员 才 发 现 ,在 语音 识别 领域 中 ， 时 间 
维度 上 的 不 变性 并 没有 频率 维度 上 那么 重要 ”| 。 关 于 对 其 内 在 原因 的 详细 
分 析 在 文献 [81] 中 有 所 描述 。 同 时 该 文献 提出 了 一 种 新 的 设计 CNN 池 化 层 
的 策略 ， 在 音素 识别 任务 上 比 以 前 所 有 的 CNN 效果 要 好 。 

要 指出 的 是 ， 层 级 时 间 记 忆 模 型 (Hierarchical Temporal Memory, HTM) 
是 男 一 种 CNN AAR JOP) 。 拓 展 包含 下 面 的 几 个 方面 : (1) 引入 
时 间或 者 是 暂 存 维度 (temporal dimension) 来 作为 判别 时 的 “监督 ” 信息 ; 
(2) 自 底 向 上 和 自 顶 向 下 这 两 种 信息 流 都 被 使 用 ， 代 替 了 CNN 中 仅 有 的 自 底 
向 上 的 数据 流 ; (3) 一 种 贝 叶 斯 概率 形式 用 于 融合 信息 以 及 进行 决策 。 

最 后 需要 指出 的 是 ,文献 [214] 提出 的 自 底 向 上 、 基 于 检测 ( detection- 
based) 的 语音 识别 学 习 结构 ， 以 及 自 2004 年 由 它 发 展 而 来 的 各 种 结构 ， 特 别 
是 文献 [330, 332, 427] 中 使 用 的 DBN- DNN 技术 ， 也 可 以 归并 为 判别 式 或 
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有 监督 的 深度 结构 。 在 这 个 结构 中 ,没有 什么 目的 和 机 制 来 描述 数据 和 语音 属 
性 的 识别 目标 (包括 更 高 级 别 上 的 音素 和 单词 ) 的 联合 分 布 概率 。 当 前 最 流 
行 的 实现 方法 是 基于 DNN 的 ， 或 者 说 是 使 用 反 向 传播 算法 进行 学 习 的 多 层 神 
经 网 络 。 在 基于 检测 的 框架 中 ， 一 种 中 间 神 经 网 络 层 明确 地 表示 了 语音 的 属 
性 ， 这 是 对 以 前 语音 “原子 ”单元 实体 的 简化 ”1。 这 种 方法 的 优点 在 于 ， 
移 除 了 语音 属性 或 者 发 音 特征 (articulatory-like features) WWB EZ, RATH 
望 在 未 来 工作 中 加 入 更 加 实际 的 特性 ， 将 有 助 于 进一步 改进 语音 识别 的 准 
确 率 。 


























第 三 个 类 别 中 的 术语 “混合 ” 指 的 是 同时 包含 或 利用 生成 式 和 判别 式 两 
种 模型 的 深度 结构 。 在 目前 发 表 文 献 的 混合 结构 中 ， 生 成 部 分 主要 用 来 帮助 判 
别 ， 因 为 判别 是 混合 结构 的 最 终 目标 。 关 于 生成 式 建 模 可 以 帮助 判别 的 方式 和 
原因 ， 可 以 用 以 下 两 种 观点 来 说 明 中 1 ， 

(1) 最 优化 的 观点 ”在 高 度 非 线 性 的 参数 佑 计 间 题 中 ， 以 无 监督 方式 训 
练 的 生成 式 模 型 可 以 提供 良好 的 初始 点 (在 深度 学 习 中 ， 常 用 术语 “ 预 训练 ” 
的 引入 就 是 因为 这 个 原因 ) 。 

(2) 正则 化 的 观点 ”无 监督 学 习 模 型 能 高 效 地 提供 由 模型 表达 的 一 系列 
函数 的 先 验 。 

研究 报告 [114] 提供 了 精辟 的 分 析 和 实验 证 据 来 支持 上 述 两 个 观点 。 

在 3. 2 节 中 讨论 过 的 无 监督 生成 式 深度 网 络 DBN， 可 以 转换 并 作为 有 相同 
网 络 结构 的 有 监督 学 习 DNN 的 初始 模型 ， 并 使 用 提供 的 目标 标签 做 判别 式 训 
练 或 微调 。 当 以 这 种 方式 使 用 DBN 时 ， 我 们 认为 DBN- DNN 模型 是 一 种 混合 
深度 模型 ， 这 里 使 用 无 监督 数据 训练 的 模型 有 助 于 使 判别 式 模 型 更 高 效 地 进行 
有 监督 训练 。 我 们 将 在 第 5 BE RBM/DBN 的 生成 式 无 监督 预 训练 的 部 分 回顾 判 
别 式 DNN 有 监督 训练 的 细节 。 

另 一 个 混合 深度 网 络 的 例子 见 文献 【260] ， 其 中 DNN 的 权 值 最 初 来 源 于 
一 个 生成 式 DBN， 进 一 步 以 序列 级 别 判别 式 准则 进行 微调 ， 这 个 准则 是 以 给 
定 输入 特征 序列 所 对 应 的 标签 序列 的 条 件 概 率 ， 而 不 是 通常 使 用 的 帧 级 别 的 交 
又 炉 准则 。 这 可 以 被 视 为 静态 DNN 和 浅 层 判别 式 CRE 结构 的 组 合 。 可 以 证 
明 ， 这 种 DNN- CRE 结构 等 价 于 DNN 和 HMM 的 混合 深度 结构 ， 该 结构 的 参数 
学 习 过 程 是 对 整个 标签 和 输入 特征 的 全 部 序列 使 用 最 大 互信 息 准 则 (MMI) 学 
习 完 成 的 。 一 种 与 其 密切 相关 并 着 眼 于 更 大 任务 的 全 序列 训练 方法 在 浅 层 神 经 
网 络 AIRE ZR PPP 上 均 获 得 了 成 功 。 我 们 注意 到 ， 联 合 训练 序列 模 
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型 (例如 HMM) 和 神经 网 络 这 一 想法 来 自 于 文献 [17, 25] 的 早期 工作 ,其 
中 的 浅 层 神经 网 络 训练 数据 量 小 ， 而 且 没 有 生成 式 预 训 练 。 

在 这 里 ， 我 们 应 当 关 注 ， 混 合 深 度 网 络 的 预 训练 /微调 策略 和 HMM 中 非 
常 流行 的 最 小 音素 误差 (MPE) 训练 技术 之 间 的 联系 (综述 参见 文献 【147 ， 
290] )。 为 了 有 效 进行 MPE 训练 ， 参 数 需要 使 用 一 个 算法 来 初始 化 (如 Baum- 
Welch 算法 ) ， 这 个 算法 对 某 个 生成 准则 (如 最 大 似 然 ， 进 行 最 优化 。 这 种 方 
法 采用 最 大 似 然 训练 的 参数 来 协助 判别 式 HMM 的 训练 ， 所 以 可 将 其 视 为 训练 
浅 层 HMM 模型 的 “混合 ”方法 。 

沿 着 使 用 判别 式 准则 去 训练 生成 式 模 型 参数 的 主线 ， 如 上 述 AMM 训练 的 
例子 ， 我 们 在 这 里 讨论 把 相同 的 方法 应 用 到 其 他 混合 深度 网 络 学 习 的 问题 上 。 
在 文献 [203] 中 ， 生 成 式 模型 RBM 使 用 类 标签 后 验 概 率 的 判别 式 准 则 进行 
学 习 。 这 里 的 标签 向 量 和 输入 数据 向 量 拼接 构成 RBM 的 组 合 可 见 层 (combined 
visible layer) 。 这 样 RBM 作为 独立 的 解决 分 类 问题 的 方法 ， 得 到 了 浅 层 生成 
式 模 型 RBM 的 判别 式 学 习 算 法 。 在 Ranzato EACS 的 工作 中 ， 训 练 将 有 门限 
马尔 可 夫 随 机 场 (gated MRF) 作为 最 底层 的 生成 式 DBN 模型 提取 特征 ， 然 后 
用 于 含 遮 挡 的 图 像 类 别 识别 这 一 具有 挑战 性 的 任务 。 文 献 [298] 证 明 ，DBN 
的 生成 能 力 能 帮助 发 现 深度 模型 的 每 层 表 达 中 哪些 信息 被 捕捉 了 ， 哪 些 被 丢弃 
To 文献 [352] 使 用 基于 经 验 风险 的 判别 式 准则 来 训练 深度 图 模型 。 

混合 深度 网 络 的 男 一 个 例子 是 利用 生成 式 DBN 去 预 训练 深度 卷 积 神经 网 
络 (deep Convolutional Neural Networks, deep CNNs) [215,216,217] 与 前 面 讨论 的 
全 连接 的 DNN 类 似 ， 预 训练 相 比 于 随机 初始 化 可 以 提高 深度 CNN 的 训练 性 
能 。 使 用 一 系列 的 正则 化 的 深度 自 编码 器 [站 预 训练 的 DNN 和 CNN， 也 是 混合 
深度 神经 网 络 类 别 的 一 个 例子 ， 这 些 深 度 自 编 码 器 包括 除 噪 自 编码 器 ( denois- 
ing autoencoders) 、 收 缩 自 编码 硕 (contractive autoencoders) AUPA i A 2m t5 ae 
(sparse autoencoders ) 。 

这 里 给 出 的 混合 深度 网 络 的 最 后 一 个 例子 基于 文献 [144，267] 中 的 思 
想 和 工作 ， 其 中 判别 任务 (如 语音 识别 ) 生成 的 输出 (文本) 作为 第 二 个 判 
别 任务 的 输入 〈 如 机 器 翻译 ) 。 整 个 系统 提供 语音 翻译 功能 ， 把 一 种 语言 的 语 
音 转 换 为 另 一 种 语言 的 文字 ， 是 一 个 由 生成 式 和 判别 式 成 分 构成 的 两 级 深度 结 
构 。 语 音 识别 模型 (如 HMM) 和 机 器 翻译 模型 (如 短语 映射 和 非 单调 对 章 ) 
本 质 上 是 生成 式 的 ， 但 学 习 它 们 的 参数 是 为 了 判别 任务 ， 即 给 定语 音 数据 来 确 
定 最 终 的 翻译 文本 。 文 献 [144] 中 描述 的 框架 使 得 在 整个 深度 结构 上 ， 端 到 
端的 性 能 得 到 优化 ， 甚 采用 的 统一 学 习 框 架 最 早 在 文献 【147] 中 提出 。 这 种 
混合 深度 学 习 方 法 不 仅 可 以 应 用 到 语音 翻译 ， 而 且 可 以 应 用 到 所 有 以 语音 为 中 
心 的 任务 和 其 他 的 信息 处 理 任 务 中 ， 如 语音 信息 检索 、 语 音 理解 、 跨 语言 的 语 
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音 / 文 本 的 理解 和 检索 等 (参见 文献 [88, 94, 145, 146, 366, 398]). 

在 接 下 来 的 三 章 中 ， 我们 将 曾 述 深度 学 习 模型 中 三 个 重要 的 类 型 。 为 了 
便于 教学 ， 所 选择 的 这 些 内 容 在 结构 和 数学 描述 上 都 比较 简洁 ， 因 此 接 下 来 
的 三 章 中 所 描述 的 三 种 结构 可 能 并 不 是 这 三 类 中 最 有 代表 性 和 最 具 影 响 力 的 
工作 。 
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本 章 和 接 下 来 的 两 章 将 分 别 介绍 第 3 章 所 讲 的 三 类 深度 网 络 结构 ， 分 别 以 
一 种 典型 的 深度 网 络 为 例 。 本 章 我 们 主要 以 无 监督 学 习 深度 模型 为 例 。 


4.1 引言 





深度 自 编 码 融 是 一 类 特殊 的 无 分 类 标签 的 深度 神经 网 络 。 其 输出 向 量 与 输 
入 向 量 同 维 ， 常 按照 输入 向 量 的 某 种 形式 ， 通 过 隐 层 学 习 一 个 数据 的 表示 或 对 
原始 数据 进行 有 效 编码 。 值 得 注意 的 是 ， 这 种 自 编码 器 是 一 种 不 利用 类 标签 的 
非 线性 特征 提取 方法 。 就 方法 本 身 而 言 ， 这 种 特征 提取 的 目的 在 于 保留 和 获得 
更 好 的 信息 表示 ， 而 不 是 执行 分 类 任务 ， 尽 管 有 时 这 两 个 目标 是 相关 的 。 

一 个 典型 的 自 编 码 器 拥有 一 个 表示 原始 数据 或 者 输入 特征 向 量 〈 如 图 像 
中 的 像素 或 者 语音 中 的 频谱 ) 的 输入 层 ; 一 个 或 者 多 个 表示 特征 转换 的 隐 层 ; 
一 个 跟 输入 层 匹 配 、 用 于 信息 重 构 的 输出 层 。 当 隐 层 数目 大 于 1 时 ， 这 个 自 编 
码 器 就 被 视 为 深层 结构 。 隐 层 的 维度 可 以 小 于 ( 当 目 标 是 特征 压缩 ) 或 者 大 
于 〈 当 目标 是 映射 特征 匹配 更 高 维 的 空间 ) 输入 层 的 维度 。 

一 个 自 编 码 需 通常 利用 反 向 传播 算法 的 诸多 变种 之 一 来 训练 ， 其 中 一 种 典 
型 的 方法 是 随机 梯度 下 降 法 。 虽 然 利 用 反 向 传播 算法 训练 通常 是 非常 有 效 的 ， 
但 将 其 应 用 于 许多 隐 层 的 网 络 训练 时 依旧 存在 一 些 问题 。 反 向 传播 通过 最 初 的 
几 层 后 ,误差 变 得 极 小 ， 训 练 也 随 之 变 得 无 效 。 尽 管 更 多 先进 的 反 向 传播 方法 
在 一 定 程 度 上 缓解 了 这 一 问题 ， 但 依然 无 法 解决 学 习 速 度 缓慢 的 问题 。 当 训练 
数据 量 有 限时 ， 该 问题 尤为 明显 。 正 如 前 面 章节 提 到 的 ， 这 个 问题 可 以 通过 把 
每 一 层 当 作 一 个 简单 的 自 解码 器 来 进行 预 训练 ， 从 而 得 到 一 定 的 缓解 |。 
这 种 策略 已 经 应 用 于 深度 自 编 码 器 的 构建 ， 该 自 编码 器 将 图 像 映射 为 短 的 二 进 
制 码 ， 从 而 可 以 进行 快速 文件 编码 〈 称 为 语义 哈 希 ) ， 以 完成 基于 内 容 的 图 像 
TR; 或 者 以 此 策略 构建 自 编码 需 ， 对 语 谱 类 的 语音 特征 进行 编码 ， 对 此 我 们 
将 在 下 面 进行 介绍 。 













































































4.2 利用 深度 自 编码 器 来 提取 语音 特征 


下 面 我 们 将 对 一 系列 工作 进行 回顾 。 一 些 发 表 于 文献 [100] 中 的 工作 利 
用 无 监督 的 方法 〈 例如， 没有 语音 分 类 标签 ) 设计 一 个 自 编码 器 ， 用 于 从 原 
各 语音 的 语 谱 图 数据 中 提取 二 进 制 的 语音 编码 ， 这 种 依据 该 模型 提取 的 二 进 抽 
编码 而 得 到 的 离散 表示 可 以 用 于 语音 信息 检索 或 者 作为 瓶颈 特征 (bottleneck 
features) 用 于 语音 识别 。 


图 4. 1 描绘 的 是 文献 [100] 中 的 深度 自 编码 器 框架 ， 从 高 分 辨 率 语 谱 图 
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中 提取 二 值 化 语音 编码 。 该 图 描述 了 一 个 深度 生成 模型 对 包含 256 个 频带 和 
1, 3, 9 或 13 帧 数据 的 语 谱 图 进行 建 模 。 该 图 建立 了 一 个 被 称 为 高 斯 - 伯 努 利 
受 限 玻 尔 效 曼 机 (Gaussian- Bernoulli RBM) 的 模型 ， 该 模型 具有 一 个 由 线性 
变量 组 成 并 含 高 斯 噪声 的 可 见 层 和 一 个 有 500 ~ 3000 个 二 值 化 隐 变 量 的 隐 层 。 
在 训练 完 这 个 高 斯 - 伯 努 利 受 限 玻 尔 效 曼 机 后 ， 将 其 隐 层 单元 的 激活 概率 作为 
输入 数据 来 训练 另 一 个 伯 努 利 - 伯 努 利 受 限 玻 尔 兹 曼 机 ( Bernoulli- Bernoulli 
RBM)。 之 后 可 以 将 这 两 个 受 限 玻 尔 兹 曼 机 组 合成 深度 置信 和 网络 (DBN) ， 通 
过 单 次 前 向 传递 很 容易 地 从 输入 数据 中 推断 出 深度 置信 网 络 中 第 二 层 的 节点 状 
态 ， 即 第 二 层 各 个 二 值 化 隐 单 元 的 状态 。 图 4. 1 中 左 侧 的 图 描述 了 该 工作 中 的 
DBN ， 其 中 两 个 受 限 玻 尔 效 曼 机 分 别 在 两 个 矩形 框 中 展示 (关于 RBM 和 DBN 
更 详细 的 讨论 参见 第 5 章 ) 。 
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有 三 个 隐 层 的 深度 自 编码 需 可 以 通过 “展开 (unrolling)”DBN AY ACA 
阵 来 形成 。 这 个 深度 自 编 码 器 下 面 的 层 利 用 矩阵 对 输入 进行 编码 ， 而 上 面 的 层 
用 和 矩阵 对 输入 进行 解码 。 之 后 ， 这 个 深度 自 编码 器 利用 误差 反 向 传播 的 方法 来 
进行 微调 以 最 小 化 重 构 误差 .该 过 程 参 见 图 4.1 的 右 侧 。 当 学 习 过 程 完 成 后 ， 
任何 长 度 可 变 的 语 谱 图 可 以 按 以 下 步骤 进行 编码 和 重 构 。 首 先 ，N 个 来 自 对 数 
能 量 谱 的 连续 交 闭 帧 (各 帧 含 256 个 点 ) ， 在 按 特征 的 每 一 维 在 所 有 样本 上 进 
行 零 均 值 单位 方差 归 一 化 后 ， 以 提供 给 深度 自 编码 器 作为 输入 。 然 后 ， 第 一 个 
隐 层 利用 逻辑 函数 (logistic function) 计算 得 到 实 值 激励 ， 这 些 实 值 激励 被 送 
和 人 下 一 编码 层 来 计算 “编码 ”。 在 编码 层 ， 隐 层 单元 的 激励 以 0.5 为 阔 值 量化 
为 0 或 1， 将 这 些 二 进 制 编码 应 用 于 重 构 原始 语 谱 图 ， 利 用 最 前 面 的 两 层 网 络 
权 值 重 构 每 个 单独 的 固定 帧 语 谱 块 。 最 后 ， 对 每 个 连续 的 V 帧 数据 构成 的 窗 ， 
利用 深度 自 编码 器 来 产生 输出 ， 用 信和 号 处 理 中 标准 的 三 加 法 (overlap- and- 
add) 对 输出 数据 进行 处 理 ， 然 后 利用 处 理 后 的 数据 来 重 构 整 个 语 谱 图 。 下 面 ， 
我 们 以 图 示 的 方式 来 举例 说 明 编 码 和 重 构 。 

图 4.2 自 上 而 下 依次 为 : 原始 的 语 谱 图 ; 分 别 用 大 小 为 N=1，3, 9 和 13 
的 输入 窗 且 强制 编码 单元 采用 0，1 两 种 数值 ( 即 二 进 制 编码 ) 而 得 到 的 各 种 
重 构 结果 图 。 

















Reconstructed from 5-layer coder:logFT-1k-312-1k-logFT;Win=1 .3.9,13 
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图 中 词语 翻译 对 照 表 


Original speech: 256-point DFTs 原始 语音 : 256 采样 点 的 离散 侍 里 叶 变 换 














利用 5 层 编码 器 进行 重 构 ，5 层 编码 器 结构 
Reconstructed from 5- layer coder: logFT-1K-312-1k- 为 ， 对 数 域 傅 里 叶 变 换 -1 千 节 点 -312 节点 -1 
logFT; Win=1, 3, 9, 13 千 节 点 -对 数 域 傅 里 叶 变 换 ; 窗 长 =1， 3 
9，13 








图 4.2 的 顶部 为 原始 的 、 未 编码 的 语音 ; 下 面 分 别 是 含 312 个 节点 的 瓶颈 
编码 层 (bottleneck code layer) 对 窗 长 为 YN=1,， 3, 9, 13 的 情况 进行 二 进 制 
编码 (0 和 1) 后 重 构 得 到 的 语音 句子 。 可 以 清楚 地 发 现 ,， N=9 和 N=13 这 
两 种 情况 的 重 构 误差 很 低 。 

我 们 可 以 将 深度 自 编码 絮 的 编码 误差 与 拓 量 量化 (Vector Quantization , 
VQ) 这 种 更 传统 的 编码 方式 进行 定性 的 比较 。 图 4.3 展示 了 不 同方 法 的 编码 
误差 。 最 上 面 的 是 句子 原始 的 语 谱 图 。 紧 接着 下 面 的 两 个 语 谱 图 ， 一 个 由 312 
位 矢量 量化 方法 重 构 而 来 ， 相 对 模糊 ; 男 一 个 由 312 位 深度 自 编 码 需 重 构 而 
来 ,看 起 来 相对 可 靠 。 按 时 间 顺 序 描 述 的 两 种 编码 方法 带 来 的 编码 误差 的 函数 
图 像 绘制 在 语 谱 图 的 下 方 。 它 证 明了 由 自 编码 器 重 构 的 结果 在 整个 语句 上 的 错 
误 率 均 低 于 矢量 量化 (VQ) 重 构 而 来 的 结果 。 最 下 面 的 两 个 图 在 时 - 频 坐 标 下 
显示 了 详细 的 编码 错误 分 布 。 
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图 4.3 
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图 4.3 中 自 上 而 下 依次 为 : 来 自 测 试 集 的 一 段 语音 的 原始 语 谱 图 ; 由 312 
位 矢量 量化 方法 重 构 的 语 谱 图 ; 由 312 位 自 编 码 器 重 构 的 语 谱 图 ; 时 域 上 矢量 
量化 编码 方法 和 自 编码 器 编码 方式 的 编码 误差 ; 矢量 量化 方法 语 谱 图 残 差 ; 深度 
自 编码 器 方法 话 谱 图 残 差 。 人 参考 文献 ( [100], @ Elsevier) 

图 4.4~ 图 4. 10 显示 了 其 他 的 一 些 示例 ， 对 比 了 原始 未 编码 的 语音 语 谱 和 
用 深度 自 编码 器 重 构 的 结果 。 它 们 展示 了 在 给 定 不 同 的 二 进 制 编码 位 数 的 情况 
下 ， 对 语 谱 图 中 单独 的 一 帧 或 连续 的 三 帧 数据 进行 编码 的 情况 。 
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图 4.4 
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图 4. 4 为 原始 语音 的 语 谱 图 和 对 应 的 重 构 结果 。 共 采用 312 个 二 进 制 码 对 
单独 的 每 一 帧 编码 。 

图 4.5 与 图 4.4 的 方法 相同 ,但 语音 来 自 TMT 集合 中 的 男 一 个 语句 。 
图 4.6 为 原始 语音 的 语 谱 图 和 对 应 的 重 构 结果 。 共 采用 936 个 二 进 制 码 对 
连续 的 三 帧 数据 进行 编码 。 








图 4.7 与 图 4. 6 的 方法 相同 ， 但 语音 来 自 TIMIT 集合 中 另 一 个 语句 。 
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图 4.8 与 图 4.6 的 方法 相同 ， 但 语音 来 自 TIMIT 集合 中 另 一 个 不 同 语句 
( 即 不 同 于 图 4.6 和 图 4.7) 。 

图 4. 9 为 原始 语音 的 语 谱 图 和 对 应 的 重 构 结 果 。 共 采用 2000 个 二 进 制 码 
对 单独 的 每 一 帧 进行 编码 。 


深度 学 习 : 方法 及 应 用 
图 4. 10 与 图 4. 9 的 方法 相同 ， 但 语音 来 自 TIMIT 集合 中 的 另 一 个 语句 。 
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4.3” 堆 又 式 去 噪 自 编码 器 


在 自 编码 器 的 早期 研究 中 ， 编 码 层 的 维度 要 低 于 输入 层 。 然 而 ， 在 一 些 应 
用 中 ， 研 究 人 员 和 希望 编码 层 的 维度 大 于 输入 层 。 这 些 应 用 中 需要 利用 一 些 技巧 
来 防止 神经 网 络 学 习 到 无 关 紧 要 的 匹配 函数 。 如 果 隐 层 或 者 编码 层 比 输入 层 的 
维度 更 高 ， 那 么 自动 编码 器 就 能 够 捕获 更 为 丰富 的 输入 分 布 。 
通过 稀 玻 性 约束 或 者 随机 强制 使 某 些 值 变 为 0 的 “dropout” 方 法 来 解决 
上 面 提 到 的 学 到 无 关 紧 要 的 匹配 函数 的 问题 。 这 种 “dropout” 方 法 带 来 的 失 
真 将 会 在 输入 数据 5] 或 者 隐 层 中 引入 。 例 如 ， 在 文献 [376] 中 详细 描 
述 的 堆 苔 式 去 品 自 编码 右 中 ， 随 机 噪声 被 添加 到 输入 数据 中 。 这 样 处 理 有 几 种 
目的 。 首 先 ， 将 输出 结果 与 原始 不 失真 的 输入 数据 进行 强制 匹配 ， 可 以 避免 学 
习 到 无 关 紧要 的 方案 。 其 次 ， 由 于 品 声 是 随机 添加 的 ， 学 习 到 的 模型 对 于 测试 
数据 中 同 种 类 的 失真 会 变 得 鲁 棒 。 此 外 ， 每 个 失真 的 输入 样本 是 不 同 的 ， 极 大 
地 增加 了 训练 集 的 大 小 ， 因 此 可 以 缓和 过 拟 合 的 问题 。 

有 趣 的 是 ， 当 编码 和 解码 权 值 矩阵 被 强制 设 为 互 为 转 置 (transpose) 的 情 
况 时 ， 这 种 含 单个 S 型 隐 层 的 去 噪 自 编 码 器 严格 等 价 于 一 个 特别 的 高 斯 受 限 玻 
尔 兹 曼 机 (Gaussian RBM) ， 但 是 需要 利用 一 种 分 数 匹配 规则 的 方法 训练 ， 甚 
中 分 数 被 定义 为 有 关 输 入 数据 对 数 域 密 度 的 导数 ， 代 替 利 用 对 比 散 度 ( Cont- 
rastive Divergence, CD) 或 持续 对 比 散 度 (persistent CD) JAC"! 。 此 外 ， 
Alain 和 Bengio 利用 二 次 方 重 构 误差 和 高 斯 干扰 噪声 将 这 个 结果 泛 化 到 了 任 
意 参数 化 的 编 、 解 码 过 程 。 他 们 表示 当 噪 声 总 量 接近 0 时 ， 这 样 的 模型 可 以 正 
确 估 计生 成 数据 的 分 布 。 最 终 ，Bengio 等 人 在 文献 [30] 中 证 明 ， 在 一 些 分 
布 簇 中 ， 任 意 的 去 噪 自 编码 器 是 一 个 稳定 一 致 的 估计 器 ， 可 用 于 估计 生成 数据 
的 分 布 。 上 面 的 结论 对 于 任何 参数 化 的 自 编码 吉 、 任 何 破坏 信息 加 噪 过 程 
(这 个 过 程 除了 限定 噪声 为 正 以 外 没有 其 他 限定 ) 的 自 编码 器 、 任 何以 条 件 对 
数 似 然 函 数 为 重 构 损 失 的 自 编码 器 都 是 成 立 的 。 佑 计 央 的 稳定 一 致 性 是 通过 将 
去 噪 自 编 码 器 和 一 个 马尔 可 夫 链 连接 来 实现 的 ， 该 马尔 可 夫 链 的 平稳 分 布 是 通 
过 模型 估计 而 来 的 分 布 ， 并 且 这 个 马尔 可 夫 链 可 以 用 于 从 去 噪 自 编码 需 中 
采样 。 


4.4 转换 自 编码 器 


上 面 描述 的 次 度 自 编码 咒 ， 由 于 利用 了 许多 非 线性 层 的 处 理 ， 所 以 可 对 特 
征 向 量 提 取 可 靠 的 编码 。 然 而 ， 用 这 种 方式 提取 的 编码 是 转换 可 变 的 (trans- 





















































ss 深度 学 习 ， 方 法 及 应 用 


formation- variant) 。 换 名 话说 ， 当 输入 特征 向 量 发 生变 换 时 ， 提 取 的 编码 就 会 
按照 学 习 器 (learner) 的 选择 而 改变 。 有 时 ， 人 们 期 望 有 一 种 可 预见 的 编码 转 
换 来 反映 感知 到 的 内 容 的 转换 不 变性 ( transformation- invariant ) 。 这 就 是 文献 
[162] 中 提出 用 于 图 像 识 别 的 转换 自 编码 器 的 目的 。 

一 个 完整 的 转换 自 编 码 器 如 同一 个 “ 胶 圳 (capsule)”,， 它 是 一 个 独立 的 
子 网 络 。 这 个 子 网 络 提取 一 个 单一 的 参数 化 特征 来 表示 一 个 单一 的 实体 ， 如 视 
频 或 音频 。 一 个 转换 自 编码 需 同 时 接收 一 个 输入 向 量 和 一 个 目标 输出 向 量 ， 这 
个 输出 向 量 是 由 输入 向 量 通过 一 个 简单 的 全 局 转换 机 制 转换 而 来 的 。 例 如 ， 图 
像 平移 和 语音 的 频率 偏 移 〈 后 者 取决 于 声 道 长 度 的 不 同 ) 。 假 设 明 确 的 全 局 转 
换 表 示 是 已 知 的 ， 转 换 自 编码 器 的 编码 层 由 几 个 “ 胶 吉 ”的 输出 组 成 。 

在 训练 阶段 ,为 了 最 小 化 最 终 输 出 和 目标 ,不 同 的 “ 胶 吉 ”用 于 学 习 提 
取 不 同 的 实体 。 

除了 这 里 描述 的 深度 自 编码 器 结构 ， 文 献 中 还 有 许多 不 同类 型 的 生成 式 结 
构 ， 所 有 的 这 些 结构 都 只 利用 数据 本 身 (摆脱 分 类 标签 ) 自动 地 获得 高 级 
的 特征 。 

















预 训 练 的 深度 神经 网 络 一 一 一 种 
混合 方法 





40 | 深度 学 习 ， 方 法 及 应 用 


本 章 将 介绍 一 种 目前 使 用 最 广泛 的 混合 深 练 
2% (Pre-trained Deep Neural Network)， 以 及 与 RBM 和 DBN ed 
过 程 。 本 章 我 们 将 DNN 作为 一 种 混合 深度 网 络 来 讨论 ， 而 在 第 6 章 中 ， 我 们 
将 其 看 成 一 种 有 监督 学 习 的 深度 网 络 台 # 构 进行 讨论 。 之 所 以 这 样 安排 , 很 大 程 
度 上 是 因为 由 无 监督 学 习 模 型 到 混合 DNN 模型 是 非常 容易 理解 的 。 在 有 监督 
学 习 中 ， 人 工 神 经 网 络 ( Artificial Neural Networks, ANN) 的 区 分 性 已 经 为 大 
nn a nr a a 

本 章 的 部 分 观点 是 基于 近期 文献 [68 , , 412] 的 。 

















5.1 受 限 玻 尔 将 曼 机 


受 限 玻 尔 效 曼 机 (Restricted Boltzmann Machines , RBM) 是 一 种 特殊 的 马 
尔 可 夫 随 机 场 (Markov Random Filed，MRF) 。 一 个 RBM 包含 一 个 由 随机 的 隐 
单元 构成 的 隐 层 (一般 是 伯 努 利 分 布 ) 和 一 个 由 随机 的 可 见 (观测 ) 单元 构 
成 的 可 见 (观测) 层 〈 一 般 是 伯 努 利 分 布 或 高 斯 分 布 ) RBM 可 以 表示 成 双 
向 图 ， 所 有 可 见 单元 和 隐 单 元 之 间 都 存在 连接 ， 而 隐 单 元 两 两 之 间 和 可 见 单元 
两 两 之 间 不 存在 连接 ， 也 就 是 层 间 全 连接 ， 层 内 无 连接 。 

一 个 RBM 中 , v 表示 所 有 可 见 单元 , h 表示 所 有 隐 单 元 ， 给 定 模 型 参数 
9， 可 见 单 元 和 隐 单 元 的 联合 概率 分 布 p (vy, h; 9) 用 能 量 函 数 E (v, h; 0) 
定义 为 

















exp(- EC(y,h.0)) 
oe es: i 





式 中 ,2 = 之 È ep(- EG, h; ;0)) 是 一 个 归 一 化 因子 或 配 分 函数 (partition 
function) , 模型 关于 可 见 向 量 v 的 边缘 分 布 为 





> exp(- E(y,h;9)) 
Z 





p(y;0)= 
对 于 一 个 伯 努 利 (可 见 单元 ) 分 布 - 伯 努 利 ( 隐 单 元 ) 分 布 的 RBM ,能 量 函 
数 的 定义 为 
J J 
E(y,h;0) =- > 这 ws; Vi h, 一 2 b; v; 一 > a;h,, 


式 中 ,wy 表示 可 见 单元 w 和 隐 单 元 h 之 间 的 对 称 连接 权 值 ,6; Ma, 表示 偏 置 项 ,7 
和 J 是 可 见 单元 和 隐 单 元 的 数目 。 条件 概 率 可 以 通过 下 列 公式 计算 . 
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I 
PCh, =1lv;@= ap W; Ui ta 
: isl 


J 
Py, = 11h;0)= ap wh ta] 
j=l 


式 中 ,go (x)= 1/1 + exp(—4))0 
相似 地 ,对 于 一 个 高 斯 (可 见 单元 ) 分 布 - 伯 努 利 ( 隐 单 元 ) 分 布 RBM ,能 量 
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相应 地 ,条 件 概率 为 
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RBM 可 以 将 实 值 随机 变量 转换 成 二 进 制 随机 变量 ， 然 后 使 用 伯 努 利 - 伯 努 利 
RBM 进行 进一步 的 处 理 。 

上 面 讨论 了 RBM 中 可 见 变 量 的 两 种 常见 的 分 布 形式 一 一 高 斯 分 布 (连续 
变量 数据 ) 和 二 项 分 布 (二 进 制 数 据 ) ， 更 一 般 的 分 布 也 可 以 应 用 在 RBM 中 。 
例如 , 文献 [386] 中 使 用 了 一 般 的 指数 族 分 布 。 

通过 计算 对 数 似 然 logp (v; 9) 的 梯度 我 们 可 以 得 到 RBM 权 值 更 新 的 公式 : 

A Ww; = E gaa (v;h;) 一 下 (vih; ), 
P, Eina (oh, EVERE P REE (万 是 在 给 定 w 之 后 在 模型 上 采样 
FFP), Enoia (vih;) 则 是 在 模型 所 确定 的 分 布 上 的 期 望 。 然 而 Ei (wih) 的 计 
算是 非常 复杂 的 ， 使 用 对 比 散 度 (Contrastive Divergence, CD) 来 近似 地 计算 
梯度 是 一 种 有 效 近 似 期 望 值 的 方法 ,对比 散 度 方法 通过 由 训练 数据 初始 化 的 吉 
布 斯 采样 器 来 代替 ,0s (vb )， 近 似 计算 下 (wj ) 的 步骤 总 结 如 下 : 

© 使 用 训练 数据 初始 化 wm 

e KEN, ~p(h!l v) 

。 采样 v, ~p(v| h,) 

e 采样 hy ~p(hl v,) 

(vi, hi) 是 从 模型 中 采样 得 到 的 ， 是 对 已 au (vih) 的 一 个 粗略 估计 。 使 
用 (v, hi) 来 估计 Ea (vih) 促 使 了 CD-1 算法 的 产生 ， 采 样 算法 过 程 如 图 
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5. 1 所 示 。 






<vihj>) <vih;>”, 
ee a fantasy 
t=0 t=1 t=2 t = infinity 
5.1 RBM 学 习 中 采样 过 程 图 示 (Geoff Hinton 的 贡献 ) 


图 中 词语 翻译 对 照 表 


Infinity 无 穷 





a fantasy 假想 的 节点 


CD-k 算法 将 CD-1 算法 进行 了 推广 ， 即 在 马尔 可 夫 链 上 执行 多 步 。 当 然 
还 有 其 他 方法 用 来 估计 RBM 的 对 数 似 然 梯度 ， 如 随机 最 大 似 然 (maximum 
likelihood) 或 持续 对 比 散 度 (Persistent Contrastive Divergence, PCD) [363,406] 。 
如 果 将 RBM HEREA! (generative model) 使 用 时 ， 随 机 最 大 似 然 方法 和 
PCD 方法 会 比 CD 方法 的 效果 要 好 。 

RBM 的 训练 是 成 功 应 用 RBM 的 关键 ,同时 也 是 使 用 深度 学 习 技 术 解 决 实 
际 问题 的 关键 。Hinton 在 2010 年 的 技术 报告 [159] 中 提出 了 一 个 非常 有 助 于 
RBM 训练 的 指南 。 

以 上 讨论 的 RBM 既是 一 个 生成 模型 ， 也 是 一 个 无 监督 模型 ， 因 为 它 使 用 
隐 变 量 来 描述 输入 数据 的 分 布 ， 而 这 个 过 程 却 没 有 涉及 数据 的 标签 信息 。 然 
而 ， 当 有 可 利用 的 标签 信息 时 ， 标 签 信 息 可 以 和 数据 一 起 使 用 ， 组 成 “联合 
数据 集 ”， 然 后 使 用 CD 算法 来 生成 与 数据 相关 的 近似 的 “生成 ”目标 函数 。 
另外 ， 还 可 以 定义 一 个 关于 标签 的 条 件 似 然 的 “判别 式 ” 目 标 函 数 。 判 别 式 
RBM 可 应 用 于 分 类 任务 中 的 参数 微调 ”| 。 

Ranzato 等 人 在 文献 [297, 295] 中 提出 了 一 种 称 为 “对 称 稀 下 编 码 机 ” 
(Sparse Encoding Symmetric Machine, SESM) 的 无 监督 学 习 算法 。SESM 和 
RBM 非常 相似 ， 它 们 都 具有 对 称 的 编码 器 和 解码 器 ， 在 编码 器 的 顶层 都 是 一 
个 逻辑 非 线 性 (Logistic Non- linearity) 结构 。 主 要 的 区 别 是 RBM 的 训练 使 用 
T CEW) 最 大 似 然 ， 而 SESM 则 是 简单 地 通过 最 小 化 平均 能 量 加 上 一 个 稀 玻 
编码 项 。SESM 使 用 稀 朴 项 来 避免 平滑 的 能 量 平 面 ， 而 RBM 则 是 在 损失 中 使 
用 一 个 明确 的 对 比 项 ， 即 对 数 配 分 函数 的 一 个 近似 , 来 达到 这 个 目标 。 另 外 一 
个 不 同 点 是 ,在 编码 策略 上 ，RBM 中 的 编码 单元 是 “有 噪声 ”的 和 二 进 制 的 ， 
而 SESM 的 编码 单元 是 二 进 制 并 且 稀 下 的 。 对 于 语音 识别 任务 ， 在 预 训练 DNN 
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过 程 中 使 用 SESM 的 例子 可 参见 文献 [284] 。 


5.2 无 监督 逐 层 预 训练 


本 节 我 们 将 讨论 如 何 将 第 5.1 节 中 介绍 的 RBM 堆 秋 组 成 一 个 深度 置信 和 网 
络 (Deep Belief Network，DBN)， 从 而 作为 DNN 预 训练 的 基础 模型 。 在 进行 
细节 的 探究 之 前 ， 我 们 首先 要 知道 ， 由 Hinton 和 Salakhutdinov 在 文献 [ 163 ] 
提出 的 这 种 预 训练 过 程 是 一 种 无 监督 的 逐 层 预 训 练 的 通用 技术 ， 也 就 是 说 ， 不 
是 只 有 RBM 可 以 扒 二 组 成 一 个 深度 生成 式 (或 判别 式 ) 网 络 ， 其 他 类 型 的 网 
络 也 可 以 使 用 相同 的 方法 来 生成 网 络 ， 比 如 Bengio 等 人 在 文献 [28] 中 提出 
的 自动 编码 器 (autoencoder) 的 变形 。 

图 5.2 描述 了 一 个 逐 层 训练 的 例子 ， 将 一 定数 目的 RBM HE ZA ae — 
DBN， 然 后 从 底 向 上 逐 层 预 训练 。 堆 释 过 程 如 下 : 训练 一 个 高 斯 - 伯 努 利 
RBM (对 于 语音 应 用 使 用 的 连续 特征 ) 或 伯 努 利 - 伯 努 利 RBM (对 于 正 态 分 
布 或 二 项 分 布 特征 的 应 用 ， 如 黑 日 图 像 或 编码 后 的 文本 ) 后 ， 将 隐 单 元 的 激 
活 概 率 (activation probabilities) 作为 下 一 层 伯 努 利 - 伯 努 利 RBM 的 输入 数据 。 
第 二 层 伯 努 利 - 伯 努 利 RBM 的 激活 概率 作为 第 三 层 伯 努 利 - 伯 努 利 RBM 的 可 
见 输 入 数据 ， 以 后 各 层 以 此 类 推 。 关 于 这 种 有 将 的 逐 层 贪 焚 学 习 策 略 的 理论 依 
据 由 文献 [163] 给 出 。 已 经 表明 ， 上 述 的 堆 县 过 程 提 高 了 在 构造 模型 下 训练 
数据 的 似 然 概率 的 变 分 下 限 。 也 就 是 说 ， 上 述 的 贪 禁 过 程 达 到 了 近似 的 最 大 似 
然 学 习 。 这 个 学 习 过 程 是 无 监督 的 ， 所 以 不 需要 标签 信息 。 

当 应 用 到 分 类 任务 时 ， 生 成 式 预 训练 可 以 和 其 他 算法 结合 使 用 ， 典 型 的 是 
判别 式 方法 ， 它 通过 有 效 地 调整 所 有 权 值 来 改善 网 络 的 性 能 。 判 别 式 精 调 (fine- 
tune) 通常 是 在 现 有 网 络 的 最 后 一 层 上 再 增加 一 层 节 点 ， 用 来 表示 想 要 的 输出 或 
者 训练 数据 提供 的 标签 ， 它 与 标准 的 前 馈 神经 网 络 (feed-forward neural network ) 
一 样 ， 可 以 使 用 反 向 传播 算法 (back- propagation algorithm) 来 调整 或 精 调 网 络 
的 权 值 。DNN 最 后 一 层 即 标签 层 的 内 容 ， 根 据 不 同 的 任务 和 应 用 来 确定 。 对 于 
语音 识别 任务 ， 如 图 5. 2 所 示 ， 最 顶层 节点 “Li ，1,，…，l;，…lj ”可 以 表示 音 
节 (syllables ) 、 音 素 (phones), F ËR (sub-phones)、 音 素 状 态 (phones 
states) 或 者 其 他 语音 单元 ， 这 些 单元 都 是 基于 HMM 的 语音 识别 系统 中 常见 的 。 

上 述 生成 式 预 训练 应 用 在 音素 和 语音 识别 中 ， 要 比 随机 初始 化 网 络 的 效果 
要 好 ,在 第 7 章 将 会 进行 详细 地 讨论 。 研 究 也 已 经 表明 了 其 他 种 类 的 预 训练 策 
略 的 有 效 性 。 比 如 ， 在 执行 逐 层 贪 焚 训 练 时 ， 可 以 在 每 一 层 的 生成 损失 函数 中 
增加 一 项 〈 附 加 ) 判别 项 。 如 果 不 使 用 生成 式 预 训练 ， 只 使 用 随机 梯度 下 降 
方法 来 对 随机 初始 化 DNN 进行 判别 式 训练 ， 那 么 结果 表明 ， 当 非常 仔细 地 选 
























































深度 学 习 ， 方 法 及 应 用 
OO 0 O 
0O- O- OQO 


óo 0 00 
00-0- ©0909 


E 5.2 DBN-DNN 结构 


Pain AUSF HER EE A FEVE FERI “RHE” (mini- batch ) 
的 大 小 〈 例 如 : 随 着 训练 轮 数 增加 大 小 ) BRRR AR “EHAE 
量 ” 用 于 在 收敛 速度 和 噪声 梯度 之 间 进 行 折 中 。 同 时 ， 在 建立 “迷你 批量 ” 
时 ， 对 数据 进行 充分 的 随机 化 也 是 至 关 重 要 的 。 另 外 ， 很 重要 的 一 个 发 现 是 
从 一 个 只 含有 一 层 隐 层 的 浅 层 神经 网 络 (shallow neural network) 开始 学 习 一 
个 DNN 是 非常 有 效 的 。 当 这 种 方法 用 于 训练 区 分 式 模型 时 (使 用 提前 结束 训 
练 的 策略 以 防止 过 拟 合 的 出 现 ) ， 在 第 一 个 隐 层 和 标签 的 softmax 输出 层 之 间 插 
人 第 二 个 隐 层 ， 然 后 对 扩展 后 的 网 络 进行 判别 式 训练 ， 重 复 这 个 过 程 ， 直 到 隐 
层 的 层 数 达 到 要 求 ， 最 后 对 整个 网 络 应 用 反 向 传播 来 精 调 网 络 的 权 值 。 这 种 判 
别 式 预 训练 在 实践 中 2 “2 取得 了 比较 好 的 效果 ， 特 别 是 在 有 大 量 的 训练 数据 
的 情况 下 效果 更 好 。 当 训练 数据 不 断 增 多 时 ， 即 使 不 使 用 上 述 预 训练 ， 一 些 经 
过 特别 设计 的 随机 初始 化 方法 也 能 够 取得 很 好 的 效果 。 

总 之 ,无 论 是 在 大 数据 量 还 是 小 数据 量 的 情况 下 ， 基 于 堆 炙 RBM 的 DBN 
预 训练 已 经 证 明 非 常 有 效 。 另 外 ， 预 训练 的 方法 不 是 仅仅 只 有 RBM 和 DBN 方 
法 ， 如 除 噪 自动 编码 髓 (denoising autoencoders) 也 可 以 用 来 有 效 地 估计 数据 
Hapa), A RBM 一 样 ， 除 噪 自动 编码 器 也 是 一 种 利用 采样 的 生成 式 模型 。 
而 与 RBM 不 同 的 是 ， 在 训练 过 程 中 ， 我 们 可 以 获得 目标 函数 梯度 的 无 偏 估计 ， 
而 不 再 需要 马尔 可 夫 链 蒙特 卡 罗 (Markov Chain Monte Carlo, MCMC) 或 者 变 
分 估计 。 因 此 ， 可 以 像 堆 三 RBM 预 训练 一 样 ， 首 先 逐 层 预 训 练 去 噪 自动 编码 
机 ， 然 后 逐 层 堆 磊 ， 从 而 实现 有 效 地 逐 层 预 训 练 。 

另外 ,在 许多 深度 学 习 的 论文 中 ,我 们 可 以 找到 逐 层 预 训 练 的 一 个 通用 框 
架 ， 例 如 文献 [2] 的 第 二 节 ， 将 RBM 作为 一 种 单 层 组 成 单元 的 特例 进行 了 
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讨论 。 更 普遍 的 预 训练 框架 包括 RBM/DBN 以 及 其 他 无 监督 特征 提取 器 ， 同 时 
也 包括 了 如 何 进 行 特征 表示 的 无 监督 预 训练 ， 即 在 无 监督 预 训练 特征 之 后 ， 单 
独 训练 一 个 分 类 器 102526271 。 














5.3 DNN 和 HMM 结合 


到 目前 为 止 ， 本 章 所 介绍 的 混合 深度 网 络 的 典型 例子 一 一 含 预 训练 的 
DNN, 实际 上 是 一 个 具有 固定 输入 维 数 的 静态 分 类 器 。 但 是 许多 实际 的 模式 识 
别 和 信息 处 理 问 题 ， 包 括 语音 识别 、 机 器 翻译 、 自 然 语 言 理 解 、 视 频 处 理 以 及 
生物 信息 处 理 等 ， 都 需要 序列 识别 。 序 列 识别 ， 有 时 也 被 称 为 结构 化 输入 / 输 
出 分 类 ， 输 入 和 输出 的 维 数 都 是 变量 。 

Al 5.3 中 DBNZDNN 和 HMM 结合 组 成 一 个 DNN - HMM， 它 是 由 Microsoft 
提出 的 ， 这 种 结构 已 经 被 成 功 地 使 用 在 文献 [67, 68] 语音 识别 实验 中 。( 参 
考 文献 [67, 68] @IEEE) 
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图 中 词语 翻译 对 照 表 
Transition Probabilities Determined with Triphone Structure 三 音素 结构 决定 的 转移 概率 
Observation Probability established with DBN 使 用 DBN 估计 的 观测 概率 
Shared 共享 
Observation 观测 





基于 动态 规划 运算 的 HMM， 能 够 有 效 地 将 静态 分 类 器 的 优势 发 挥 到 处 理 
动态 或 者 序列 模式 任务 上 。 因 此 ， 将 前 馈 神经 网 络 和 HMM 结合 ， 能 够 有 效 地 
弥合 静态 和 序列 模式 识别 之 间 的 差别 。 早 期 的 基于 神经 网 络 的 语音 识别 ”3 
中 就 已 经 采用 了 这 种 方法 。 图 5.3 说 明了 使 用 DNN 来 实现 这 种 结构 的 方法 ， 
这 种 结构 已 经 在 文献 [67，68] 中 成 功 应 用 到 语音 识别 中 。 

语音 的 时 间 动 态 特殊 性 正如 文献 [45, 73, 76, 83] 中 所 描述 的 那样 复 
杂 ， 所 以 要 想 取得 语音 识别 的 最 终 成 功 ， 还 需要 比 HMM 具有 更 强 的 短 时 相关 
特性 的 模型 。 将 实际 协同 发 音 (co- articulatory) 特性 和 DNN 以 及 其 他 深度 学 
习 模 型 结合 ， 组 成 连贯 动态 深度 结构 (coherent dynamic deep architecture ) ， 将 
是 一 个 极 具 挑战 性 的 新 的 研究 方向 。 
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6.1 简介 


虽然 第 5 章 中 所 描述 的 DNN 在 识别 和 分 类 任务 中 ,包括 语音 识别 和 图 像 
分 类 ， 都 取得 了 非常 好 的 效果 ， 然 而 训练 一 个 DNN 的 复杂 度 却 是 非常 高 的 。 
尤其 是 在 传统 的 训练 方法 中 ，DNN 参数 精 调 阶段 使 用 了 随机 梯度 下 降 学 习 算 
法 ,但 是 这 种 算法 很 难 做 到 多 机 并 行 ， 所 以 在 大 规模 的 数据 上 进行 学 习 会 非常 
困难 。 例 如 ， 使 用 一 个 强大 的 图 形 处 理 单 元 (GPU) 和 几 百 或 者 几 千 小 时 的 训 
练 数据 ， 来 训练 基于 DNN 的 语音 识别 器 ， 完 全 可 以 得 到 一 个 令 人 满意 的 结果 。 
但 是 ， 目 前 还 不 能 完全 确定 这 个 结果 是 不 是 与 训练 数据 量 成 正比 。 文 献 [69] 
中 涉及 了 此 研究 方向 的 最 新 进展 。 

本 章 我 们 将 学 习 一 个 新 的 深度 结构 REAME (Deep Stacking Net- 
work DSN), DSN 首先 是 为 了 研究 学 习 伸 缩 性 (learning scalability) 问题 而 设 
计 的 。 本 章 基于 最 近 的 文献 [106, 110, 180, 181] 并 做 了 一 些 扩展 的 讨论 。 

DSN 设计 的 中 心思 想 是 “ 堆 矢 " ， 最 初 由 文献 [28，44，392] 提出 ， 大 
致 过 程 是 : 首先 构造 简单 的 函数 模块 或 者 分 类 模块 ， 然 后 将 这 些 简单 的 函数 或 
者 分 类 器 逐 层 堆 谷 进而 用 来 学 习 复 杂 的 函数 或 者 分 类 絮 。 目 前 已 经 提出 了 许多 
堆 释 的 实现 方法 ， 典 型 的 方法 是 在 简单 模块 中 使 用 有 监督 的 信息 。 位 于 堆 针 结 
构 高 层 的 堆 释 分 类 器 所 使 用 的 新 特征 ， 来 源 于 原始 的 输入 特征 和 低层 模块 的 分 
类 结果 的 拼接 。 在 文献 [60] 中 ， 用 来 堆 秋 的 简单 模型 是 条 件 随机 场 ( Condi- 
tional Random Field，CRF) 。 这 种 类 型 的 深度 结构 ， 在 加 入 隐 状 态 后 得 到 进 一 
步 扩 展 ， 在 使 用 不 含 边 界 信 息 训练 数据 的 自然 语言 处 理 和 语音 识别 应 用 中 取得 
TRJ” 。 正 如 文献 [185] 中 所 描述 ， 卷 积 神经 网 络 (Convolutional Neural 
Network, CNN) 也 可 以 看 成 一 种 堆 靶 结构 ， 但 是 监督 信息 只 在 堆 琶 模块 的 最 
后 的 单元 上 使 用 。 

DSN 结构 首先 在 文献 [106] 中 提出 ， 当 时 被 称 为 深度 是 网络 (Deep Con- 
vex Network，DCN) ， 主 要 是 用 来 强调 学 习 网 络 算法 的 凸 性 质 。DSN EHA 
个 基本 模块 时 都 使 用 了 监督 信息 ， 采 用 多 层 感 知 机 的 简化 形式 。 在 基本 模块 
中 ， 输 出 单元 是 线性 的 ， 隐 单元 是 sigmoidal 非 线性 的 。 在 确定 了 隐 单 元 的 激 
励 之 后 ， 线 性 输出 单元 能 够 对 输出 网 络 权 值 进行 高 效 、 并 行 和 闭 式 的 估计 
( 凸 优化 的 结果 ) 。 因 为 输入 和 输出 权 值 之 间 的 闭 式 约束 ， 输 入 的 权 值 也 可 以 
使 用 高 效 、 并 行 和 批 处 理 的 方法 进行 估计 ， 这 部 分 将 在 6. 3 节 中 进行 介绍 。 

在 文献 [106] FEH “i (convex)” 这 个 名 词 ， 主 要 是 为 了 强调 学 习 
过 程 的 凸 优化 的 规则 ， 即 在 每 个 基本 模块 中 ， 当 确定 了 隐 单 元 的 激励 之 后 ， 学 
习 输 出 网 络 权 值 的 过 程 是 一 个 凸 优 化 的 过 程 。 由 于 凸 的 性 质 所 产生 的 输入 和 输 
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出 之 间 的 闭 式 约束 也 是 非常 重要 的 ， 这 种 约束 使 得 学 习 其 余 的 网 络 权 值 ( 即 

网 络 输入 权 值 ) 更 加 简单 ， 使 得 DSN 的 批量 学 习 可 以 分 布 到 CPU 集群 中 进 

行 。 在 最 近 的 文献 中 ， 当 强调 堆 芭 的 关键 操作 时 都 会 使 用 DSN。 


6.2 深度 堆 双 网络 的 基本 结构 


如 图 6. 1 所 示 的 一 个 DBN， 包含 了 数目 可 变 的 分 层 模块 ， 每 个 模块 都 是 由 
单 隐 层 和 两 个 可 训练 的 权 值 集合 组 成 的 特殊 神经 网 络 。 在 图 6.1 中 ， 只 用 4 个 
模块 举例 说 明 ， 每 一 个 模块 都 用 一 种 不 同 的 颜色 表示 。 实 际 上 ， 在 图 像 和 语音 
分 类 中 通常 需要 训练 儿 百 个 模块 。 

DSN 的 最 底层 模块 由 三 层 组 成 : 包含 线性 输入 单元 的 线性 层 、 包 含 非 线性 
单元 的 非 线 性 层 和 包含 线性 输出 单元 的 线性 层 。 隐 层 中 经 常 使 用 sigmoid JER 
性 函数 ， 当 然 也 可 以 使 用 其 他 非 线 性 函数 。 如 果 将 DSN 用 于 图 像 识别 ， 输 入 
单元 对 应 相应 图 像 的 像素 (或 提取 的 特征 )， 可 以 是 密度 值 、RGB 值 或 者 和 像 
素 相关 的 其 他 值 。 如 果 DSN 用 于 进行 语音 识别 ， 输 入 单元 可 以 是 语音 波形 数 
据 的 采样 点 或 者 从 语音 数据 中 提取 的 特征 ， 比 如 功率 谱 (power spectra) 或 倒 
谱系 数 (cepstral coefficients)。 线 性 输出 层 的 输出 单元 的 输出 表示 分 类 的 目标 。 
例如 ， 如 果 使 用 DSN 进行 数字 识别 ， 输 出 单元 代表 0，1，2，3，…，9， 并 且 
使 用 0-1 编码 方式 表示 。 如 果 使 用 DSN 进行 语音 识别 ， 输 出 单元 可 以 表示 音 
素 、 音 素 的 HMM 状态 或 者 音素 的 上 下 文 相关 的 HMM 状态 。 

我 们 用 到 表示 底层 连接 线性 输入 层 和 非 线 性 隐 层 的 权 值 和 矩阵， 用 UU 表示 
上 层 连接 非 线 性 隐 层 和 线性 输出 层 之 间 的 权 值 矩 阵 。 当 使 用 均 方 误差 (mean 
square error) 训练 准则 时 ， 给 定 Wa, WAER 过 可 以 通过 闭 式 (closed- 
form ) 解 确定 。 

如 上 所 述 ，DSN 包含 一 系列 的 串联 、 重 合 和 分 层 的 模块 ， 其 中 每 个 模块 都 
有 相同 的 结构 一 一 一 个 线性 输入 层 ， 之 后 连接 一 个 非 线 性 隐 层 ， 然 后 是 一 个 线 
性 输出 层 。 底 层 模块 的 输出 是 与 它 相 邻 接 的 较 高 层 的 输入 单元 的 子 集 。 第 二 个 
模块 ， 即 与 最 底层 的 模块 直接 相连 的 模块 ， 其 输入 除了 包含 最 底层 模块 的 输出 
之 外 还 可 以 选择 性 地 包含 原始 的 输入 特征 。 

将 底层 模块 的 输出 作为 与 之 邻接 的 较 高 层 模块 的 输入 ,然后 使 用 是 优化 来 
学 习 输 入 层 和 隐 层 、 隐 层 和 输出 层 之 间 的 连接 权 值 矩阵 ， 使 用 这 种 方法 ， 可 
以 对 大 多 数 模块 进行 训练 。 使 用 这 种 方法 训练 的 DSN 可 以 用 来 做 自动 分 类 
任务 ， 例 如 帧 一 级 的 语音 音素 分 类 或 音素 状态 分 类 。 将 DSN 的 输出 和 HMM 
或 者 任何 动态 规划 模型 连接 ， 即 可 以 实现 连续 语音 识别 以 及 其 他 类 型 的 序列 
模式 识别 。 
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图 6.1 


图 6. 1 为 使 用 输入 - far ty HEE AY DSN 结构 。 图 中 使 用 4 个 模块 进行 了 举 
例 说 明 ， 每 个 模块 使 用 了 不 同 的 颜色 。 虚 线 表示 复制 当前 层 。 (参考 文献 
[366] @IEEE) 


6.3 一 种 学 习 DSN 权 值 的 方法 


本 节 我 们 提供 一 些 关 于 如 何 借助 DSN 线性 输出 单元 来 学 习 DSN 权 值 的 技 
术 细 节 。 为 简单 起 见 ， 我 们 使 用 一 个 模块 来 说 明 线性 输出 单元 的 优势 。 首 先 ， 
如 果 在 所 有 训练 数据 中 的 所 有 隐 层 的 激励 矩阵 五 都 已 经 得 到 ， 那 么 高 层 的 权 
值 矩阵 辟 很 容易 求 出 。 我 们 使 用 向 量 组 和 = [x,，…，x;，…，Xxw] 表 示 训 练 向 
量 ， 其 中 每 一 个 向 量 z = [e e G s dyl 是 关于 模块 的 函数 ，D 表示 
输入 向 量 的 维 数 ， 是 训练 数据 的 总 数 。 工 表示 隐 单 元 的 数量 ，C 表示 输出 向 
量 的 维 数 ， 一 个 DSN 模块 的 输出 为 y, =U'h,, Ph, =o (Wx,) 是 第 i 个 样本 
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的 隐 层 向 量 ,，U 是 一 个 LxC AY EERIE, WEA Dx LW Pe SUE 
E, o( + ) 是 一 个 sigmoid 函数 。 如 果 x, 和 ,中 都 增加 常数 1， 那 么 偏 置 项 也 隐 
含 在 公式 中 。 

HT=[t, 0, tt,，…,t,] 表 示 所 有 训练 数据 (总 共 N 个 样本 ) 的 标签 ， 
Pt, = [tu es ti, 7, tol’, BRU 和 W 通过 最 小 化 均 方 误差 得 到 . 

= yt FP- TY-7)"], 
其 中 网 络 的 输出 为 
Ji =U"h, =U"o(W"x,)=G, (U, W) 

URERA NAE, PORFA, 假设 H= [h,, 0 h, 

hy) 已 知 ,或 者 WOR, SRÆKRAAT U 的 导数 为 0， 求 得 
U =(HH') "HT =F (W), 

式 中 ,有 h,=o(W'x,)。 也 就 是 说 ,在 U 和 久之 间 存 在 一 个 很 明确 的 约束 : 在 
传统 的 反问 传播 算法 中 ,U 和 WW 是 相互 独立 的 。 

给 定 等 式 约束 U=F(W) 后 ,使 用 拉 格 朗 日 乘 子 法 (Lagrangian multiplier 
method) 学 习 最 优化 参数 下 。 优 化 拉 格 朗 日 算 子 为 





1 
=> È IG (U, W) -il +A U-F(W) | 








我 们 得 到 批量 梯度 下 降 算法 ， 而 梯度 采用 下 面 的 形式 [106, 413]: 


2E =2X |a" (1-H)" [H'(HT')(TH')- T'(TH')] | 
sth, HW’ =H (A H") Æ H WHR (pseudo-inverse)， 符号。 表示 按 元 素 的 
成 对 相 乘 (element- wise multiplication) 。 

和 传统 的 反 疝 传播 算法 相 比 ， 因 为 有 明确 的 约束 U=F(W)， 所 以 上 述 
方法 在 梯度 计算 时 噪声 较 少 。 经 验 发 现 ， 不 同 于 传统 的 反 向 传播 ， 这 里 使 用 批 
量 训练 可 以 有 效 的 帮助 DSN 进行 并 行 学 习 。 


6.4 张 量 深度 堆 亚 网 络 


上 述 的 DSN 结构 在 最 近 的 研究 中 已 经 被 推广 到 它 的 张 量 版 本 ， 我 们 称 之 
HKEE AW (Tensor Deep Stacking Network, TDSN) U 。 在 并 行 化 
学 习 方 面 ， 它 和 DSN 具有 相同 的 扩展 性 ， 但 是 它 通 过 提供 更 高 阶 的 和 FEE., 
对 DSN 进行 了 推广 。 
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fe HE Fe IMT tl, TDSN 的 结构 和 DSN 是 非常 相似 的 。 也 就 是 说 ， 
TDSN 的 模块 使 用 和 DSN 相似 的 方法 进行 堆 钱 形成 深度 结构 。 而 DSN 和 TDSN 
的 主要 不 同 在 于 每 个 模块 是 如 何 构建 的 。 在 DSN 中 ， 一 个 隐 层 只 由 一 套 隐 单 
元 组 成 ， 如 图 6. 2 的 左 侧 图 所 示 。 和 DSN 相 比 ，TDSN 的 每 个 模块 中 包含 两 个 
独立 的 隐 层 ， 如 图 6. 2 中 间 和 右 侧 的 两 幅 图 所 示 ， 其 中 使 用 “ 隐 层 1” 和 “ 隐 
层 2” 表 示 两 个 独立 的 隐 层 。 因 为 隐 层 的 不 同 ， 上 层 的 权 值 向 量 ， 如 图 6. 2 中 
的 “U ”从 DSN 中 的 一 个 二 维 数组 变 成 了 TDSN 中 的 一 个 三 维 数组 的 张 量 
(tensor) ， 如 图 6. 2 中 间 图 所 示 。 


DSN TDSN TDSN 


Predictions 
= rd 


7 = N 
Hidden Layer = Hidden 2 
nm 7 

















Predictions 





Input Data 


图 6.2 


图 6. 2 为 由 一 个 模块 组 成 的 DSN (£R) 和 TDSN 的 对 比 。 右 面 两 图 是 
TDSN 模块 的 两 种 等 效 的 形式 。( 参考 文献 [180], @ IEEE) 











图 中 词语 翻译 对 照 表 
Predictions 预测 
Hidden Layer 隐 层 
Input data 输入 数据 
Implicit Hidden Layer 间接 隐 层 





张 量 U 是 三 向 连接 的 ,分别 连 接 预 测 层 和 两 个 独立 的 隐 层 。TDSN 的 一 个 
等 价 形式 如 图 6. 2 中 右 侧 图 所 示 ， 将 两 个 独立 的 隐 层 进行 外 积 得 到 间接 隐 层 
(图 中 的 间接 隐 层 Implicit Hidden Layer)， 产 生 的 大 向量 包含 两 个 隐 层 的 所 有 
可 能 的 成 对 的 元 素 乘 积 。 这 样 便 又 把 张 量 U 变 成 了 和 矩阵 ， 它 的 维 数 满足 两 点 : 
1) 和 预测 层 的 大 小 相同 ; 2) 是 两 个 隐 层 的 乘积 的 大 小 。 这 种 等 价 形式 能 
使 DSN PAY U 的 凸 优 化 方法 运用 到 张 量 U 的 学 习 中 。 更 重要 的 是 ， 通 过 外 
积 构建 规模 较 大 的 间接 隐 层 ， 人 允许 了 高 阶 隐 层 的 特征 交互 。 
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使 用 与 DSN 相似 的 方法 ， 即 将 各 种 不 同 的 向 量 进 行 拼接 ， 将 TDSN 模块 堆 
笃 组 成 一 个 深度 结构 。 图 6. 3 和 图 6. 4 通过 两 个 例子 说 明 TDSN HOSE BITE 
值得 注意 的 是 ， 对 于 DSN, 将 隐 层 和 输入 (IE 6.4) 拼接 的 堆 倒 是 很 困难 
的 ， 因 为 在 实际 应 用 中 ， 隐 层 单元 的 数量 是 非常 大 的 。 


Hidden1 Hidden 2 





Input Data 


图 6.3 


图 6. 3 中 通过 拼接 预测 层 向 量 和 输入 向 量 堆 徐 TDSN 模块 。 (参考 文献 
[180], @ IEEE) 
图 6. 4 中 通过 拼接 两 个 隐 层 向 量 和 输入 向 量 实现 TDSN PEERY HEE 











图 中 词语 翻译 对 照 表 
Predictions 预测 
Hidden 1 隐 层 1 
Hidden 2 隐 层 2 
Input data 输入 数据 
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Predictions 

















中 词语 翻译 对 照 表 
Predictions 预测 
Hidden 1 隐 层 1 
Hidden 2 隐 层 2 
Input data 输入 数据 
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在 最 近 的 研究 中 ，DSN 结构 也 被 推广 到 核 化 版 本 ,我 们 称 之 为 K-DSN 
(kernel- DSN) 0>! 。 对 DSN 进行 扩展 的 目的 是 为 了 在 不 增加 训练 参数 的 前 提 
下 增加 每 个 DSN 模块 的 隐 单 元 数量 。 使 用 核 方法 可 以 很 简单 地 实现 此 目的 ， 
我 们 接 下 来 要 描述 的 K- DSN 就 是 基于 核 方法 的 。 

上 面 所 提 到 的 DSN 结构 ， 给 定 每 个 模块 中 隐 层 的 输出 后 ， 再 求 权 值 矩阵 
U 是 个 凸 优 化 的 问题 。 但 问题 是 需要 优化 权 值 矩阵 琴 ， 因 此 整个 网 络 是 非 凸 
的 。 在 最 近 对 DSN 的 扩展 中 ， 提 出 了 张 量 结构 ， 把 对 W 的 非 凸 优化 问题 转化 
RX U 的 凸 优化 问题 :528 E K-DSN 中 ,我 们 使 用 核 方法 则 能 够 完全 忽略 
学 习 W 的 非 凸 问题 。 





6 深度 堆 权 网 络 及 其 变形 “一 有 监督 学 习 
为 了 得 到 K- DSN 结构 和 其 学 习 算 法 ， 首 先 ， 我 们 以 DSN 最 底层 模块 为 

Bil, Jf A sigmoid 隐 层 h,=o (W'x,) 推广 成 一 般 的 非 线 性 函数 G(X), 其 

中 对 为 原始 的 输入 特征 ，G (X) 的 高 维 (也 许 是 无 限 维 ) 性 质 取 决 于 所 选取 

的 核 函 数 。 其 次 ， 我 们 用 公式 将 约束 优化 问题 表示 为 








最 小 化 ?77 [E E"] + Lory 


服从 于 7T -U'G (X) =E 


然后 ,我 们 使 用 上 述 约束 优化 问题 的 对 侦 表 示 获 得 UV =G "a， 其 中 ,向 量 
a 有 如 下 形式 : 




















a=(CI+K)"'T 
其 中 , K=G (X) G (X) B-*M RM REHM, EERIK = 
g (x, g(x, )o 
最 后 ， 对 于 测试 集 或 开发 集中 的 每 一 个 新 输入 向 量 x，K- DSN (底层 ) 模 
块 的 预测 为 


y(«) =U'g(x) =a'G (X) g (x) =k" (x) (CI+K)`'T 


其 中 ,我 们 定义 核 向 量 大 (xz)， 使 得 其 元 素 为 上 (x) =k (x,, x), x, 是 训 
练 样本 ，x 是 当前 的 测试 样本 。 
对 于 -DSN 中 的 第 1 (1 二 2) 个 模块 ， 相 应 的 核 矩 阵 修改 为 
K=G([X| 1 YY ODG (IXIY PL YE?) 


通过 下 面 的 分 析 ， 我们 可 以 看 出 K-DSN 最 主要 的 优势 。 首 先 ， 它 不 像 
DSN 一 样 需要 计算 隐 单 元 的 输出 ，K-DSN 不 需要 明确 地 计算 隐 单 元 的 输出 
G(X) 或 者 G ( [X| YP] 了 和 ?| … 了 了 人])， 当 使 用 高 斯 核 (Gaussian Ker- 
nels) 时 ， 核 的 使 用 相当 于 在 无 须 显示 计算 隐 单 元 输出 的 情况 下 得 到 无 限 数目 
的 隐 单 元 。 另 外 ,我 们 不 再 需要 学 习 DSN 中 的 底层 权 值 矩阵 W， 在 文献 
[102] 中 有 详细 描述 ， 核 参数 ( 比如 高 斯 核 中 的 方差 r) 使 得 K-DSN 与 DSN 
相 比 起 来 能 够 比较 好 地 克服 过 拟 合 的 问题 。 图 6. 5 表示 了 一 个 具有 三 个 模块 ， 
使 用 高 斯 核 的 基本 K- DSN 结构 。 

高 斯 核 K- DSN 使 用 两 套 与 模型 相关 的 超 参数 c CORI SORAYA IY, BAK 
平滑 参数 和 正则 化 参数 。 它 们 都 是 很 直观 的 参数 ， 对 于 底层 模块 的 参数 调整 
(通过 线性 搜索 或 者 交叉 验证 方法 ) 是 非常 直接 的 ， 而 对 于 整个 网 络 ， 调 整 所 
有 模块 的 参数 却 是 比较 困难 的 。 例 如 ， 如 果 底 层 模 块 参数 调整 得 非常 好 ， 那 么 
再 增加 更 多 的 模块 将 不 会 对 模型 改进 多 少 。 相 反 ， 当 较 底 层 的 模块 调整 得 并 不 
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十 分 精确 (也 就 是 ， 对 从 简单 的 方法 中 获得 的 结果 宽松 处 理 ) ， 整 体 的 K- DSN 
通常 表现 得 更 好 。Deng 等 人 "中 使 用 一 套 基 于 经 验 的 调 参 方法 ， 对 K- DSN A 
底 而 上 的 进行 适应 性 调整 ， 得 到 了 上 述 的 实验 结论 。 


Predictions 


cS) 


K®) = 6(X®)67T (x@) 


g% 








Preds Y(2) WEIER | x 


K®) = G(X )G@" (XM) 


Input Data X 


图 6. 5 


图 6.5 为 K-DSN 的 一 个 例子 ， 其 中 的 每 个 模块 都 使 用 具有 不 同 参数 的 高 
斯 核 。( 人 参考 文献 [102], @ IEEE) 


图 中 词语 翻译 对 照 表 


Predictions 预测 
Input data 输入 数据 


本 节 所 介绍 的 K-DSN 在 机 器 学 习 和 模式 识别 的 视角 上 获得 了 一 系列 非常 
可 取 的 特性 ， 它 合理 地 结合 了 深度 学 习 和 核 学 习 方 法 ， 并 且 在 训练 过 程 中 不 像 
DSN 那样 具有 非 凸 优化 问题 。 在 计算 方面 上 ， 不 像 DSN 或 者 张 量 DSN， 它 可 
以 实现 多 机 的 并 行 计算 ， 同 时 不 需要 预 训练 。 文 献 [102] 的 研究 发 现 ， 与 
DSN 和 张 量 DSN 相 比 ，K-DSN 中 的 正则 化 起 到 了 非常 重要 的 作用 。 使 用 一 些 
非常 直接 的 优化 方法 ， 比 如 启发 式 的 弹性 反 向 传播 算法 (Resilient Backpropa- 
gation, RProp) 5 就 能 使 K- DSN 权 值 在 学 习 中 得 到 有 效 的 调整 。 

然而 ， 任 何 核 方法 都 存在 的 一 个 内 在 问题 是 ， 当 训练 样本 和 测试 样本 变 得 




















6 深度 堆 登 网 络 及 其 变形 有 上 监督 学 习 
非常 巨大 时 ，K-DSN 的 扩展 性 就 成 了 一 个 很 大 的 问题 。Huang 等 人 中 在 2013 

年 提出 了 一 个 基于 随机 健 里 叶 特 征 (random Fourier features) 的 解决 方法 ， 该 

方法 具有 通 近 高 斯 核 的 强 有 力 的 理论 依据 ， 并 且 在 大 量 训练 样本 的 情况 下 ， 训 

练 和 测试 K- DSN 过 程 效率 都 非常 高 。 经 验证 明 ， 正 如 传统 的 使 用 严格 高 斯 核 

的 K-DSN 一 样 ， 使 用 随机 傅 里 叶 特征 也 能 成 功 地 将 核 模块 堆 赫 成 一 个 深度 

结构 。 
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7.1 语音 识别 中 声学 模型 的 建立 





如 第 2 章 所 述 , 语音 识别 是 深度 学 习 方 法 在 工业 界 中 的 第 一 个 成 功 应 用 。 
这 是 工业 界 和 学 术 界 紧密 合作 的 成 果 ， 源 于 微软 研究 院 研究 员 对 大 规模 的 工业 
需求 前 瞻 性 的 预见 以 及 积极 的 参与 “9100331 也 源 于 不 断 深入 探索 深度 
学 习 能 力 以 及 研究 语音 识别 的 最 新 技术 ， 其 中 包括 引 人 瞩 目的 高 效 解码 技术 。 

长 期 以 来 ，GMM - HMM 的 方法 在 语音 识别 中 占据 主导 地 位 。 该 方法 主要 
是 基于 上 下 文 相 关 的 浅 层 、 扁 平 的 CMM M HMM 生成 式 模型 (参见 文献 [92， 
93，187，293] ) 。 虽 然 神 经 网 络 的 方法 有 一 段 时 间 非 常 流行 ， 但 效果 还 是 远 
不 如 GMM -HMM ”725 即便 是 具有 深度 隐藏 动态 (deep hidden dynam- 
ics) 特征 的 生成 式 模 型 也 难以 与 GMM - HMM 的 识别 效果 相 比 (参见 文献 
[ 45, 73, 108, 282]). 

2010 年 ， 在 学 术 界 和 工业 界 研究 者 的 紧密 合作 下 ， 深 度 学 习 和 DNN 开始 
对 语音 识别 领域 产生 影响 中 。 合作 从 音素 识别 任务 开 
$6189 100,135, 136, 13260 {2383095311334 ， 在 这 个 任务 中 将 第 5 章 讲 到 的 混合 DNN 以 及 
后 续 会 述 及 的 卷 积 (convolutional) 和 回归 (recurrent) 结构 的 新 模型 的 建 模 
能 力 体现 得 淋漓 尽 致 。 在 特征 方面 ， 研 究 者 从 普遍 使 用 的 MFCC 特征 向 更 底层 
的 特征 进行 研究 ， 这 也 说 明了 原始 语音 频谱 特征 的 重要 性 ， 尽 管 如 此 ， 截 止 所 
写本 书 时 ， 仍 然 没 有 使 用 原始 语音 波形 作为 特征 的 方法 "2 。 工 业界 和 语音 
界 的 合作 也 在 大 词汇 量 语 音 识 别 领 域 取 得 了 很 好 的 成 
FEL [67 ,68,94,89, 161 ,199 195,225 323,353 ,399,414] ` 类 似 GMM - HMM 的 语音 单元 ( senones ) ， 
DNN 在 大 词汇 量 语音 识别 领域 的 成 功 应 用 很 大 程度 上 归功 于 大 规模 输出 层 结 
构 的 使 用 。 语音 研究 者 想 继续 保持 业已 证 明 在 GMM- HMM 框架 中 非常 有 效 的 
上 下 文 相关 的 音素 建 模 技巧 ， 同 时 对 已 有 的 高 效 的 GCMM- HMM 解码 器 软件 架 
构 进 行 尽量 小 的 改动 来 适应 新 的 模型 。 同 时 ， 这 项 工作 也 表明 ， 当 拥有 足够 大 
的 数据 量 时 ， 可 以 不 必 使 用 基于 DBN 的 预 训练 。 以 下 三 个 因素 ， 使 得 基于 深 
度 学 习 的 语音 识别 从 学 术 界 到 工业 界 取得 了 广泛 的 成 功 : (1) 相 比 目前 最 好 
的 GMM- HMM 系统 ， 识 别 错误 率 明 显 下 降 ; (2) 音素 状态 (senones) 作为 
DNN 输出 层 使 得 部 署 基于 DNN 的 解码 器 对 原 解 码 器 的 改动 很 小 ，(3) DNN 强 
大 的 建 模 能 力 降 低 了 系统 的 复杂 性 。 截 至 2013 年 ICASSP 会 议 ， 全 世界 至 少 
15 个 主要 的 语音 识别 团队 的 实验 证 明了 在 大 规模 语音 识别 任务 上 使 用 DNN 的 
有 效 性 ， 以 及 用 原始 语音 频谱 特征 (而 不 是 MFCC) 可 以 得 到 更 好 的 结果 。 这 
些 团队 包括 了 著名 的 工业 界 语 音 实验 室 ， 如 Microsoft® 943439430] 、 
TBM!195:3-311-307.317] Google! 05184223] 、 讯 飞 和 百度 。 他 们 的 成 果 代 表 了 语音 
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识别 的 最 新 水 平 ， 这 些 公司 的 语音 产品 和 服务 近年 来 被 媒体 广泛 地 报导 。 
在 本 章 的 其 余部 分 ， 我 们 将 根据 几 个 重要 议题 回顾 基于 深度 学 习 的 语音 识 
别 工 作 ， 这 些 议题 包含 在 小 节 标 题 中 。 


7.1.1 回归 语音 的 原始 频谱 特征 


深度 学 习 ， 也 称 为 表示 学 习 或 (无 监督 ) 特征 学 习 ， 它 要 达到 的 一 个 重 
要 目标 是 使 其 能 够 自动 地 从 原始 数据 中 提取 有 效 的 特征 ， 这 个 目标 与 具体 应 用 
领域 的 种 类 是 无 关 的 。 对 于 语音 的 特征 学 习 和 语音 识别 而 言 ， 这 个 目标 可 以 归 
纳 为 对 原始 频谱 特征 的 使 用 或 是 对 波形 特征 的 使 用 。 过 去 30 年 以 来 ,虽然 对 
语音 频谱 进行 变换 丢失 了 原始 语音 数据 的 部 分 信息 ,但 是 多 种 “手工 制作 ” 
(hand- crafted) 的 特征 促进 了 GMM- HMM 系统 识别 率 的 巨大 提升 。 其 中 最 成 
功 的 是 非 自 适应 的 余弦 变换 ， 它 促进 了 Mel 频率 倒 频谱 系数 (MFCC) 特征 的 
产生 。 余 弱 变 换 近 似 地 去 除了 特征 成 分 之 间 的 相关 性 ， 这 对 于 使 用 对 角 协 方差 
阵 的 GMM 来 说 是 很 重要 的 。 然 而 ， 当 深度 学 习 模 型 (如 DNN DBN) , RE 
自 编码 器 替代 GMM 模型 以 后 ， 由 于 深度 学 习 建 模 方法 具有 强大 的 相关 性 建 模 
能 力 ， 使 得 去 除 特征 之 间 的 相关 性 变 得 无 关 紧 要 。 较 早 的 一 篇 研究 论文 "说 
明了 深度 学 习 的 这 个 优点 ， 并 且 在 使 用 非 监督 学 习 的 自 编 码 器 对 语音 的 瓶颈 层 
(bottleneck) 特征 进行 编码 时 ， 直 接 使 用 语 谱 比 MECC 更 有 效 。 

从 语音 波形 (原始 语音 特征 ) 到 MFCC 以 及 它们 的 时 间 差 分 ， 这 个 流程 
经 历 了 多 个 中 间 步 又 : 对 数 谱 、Mel 域 滤波 器 组 ， 参 数 是 从 数据 中 学 习 得 到 
的 。 深 度 学 习 的 一 个 重要 特性 是 : 不 用 单独 设计 特征 表示 器 和 分 类 器 。 这 种 同 
时 学 习 分 类 顺和 特征 表示 的 思想 ， 其 实在 基于 GMM- HMM 的 语音 识别 中 早 有 
研究， 例如 文献 [33，50，51，299] ， 然 而 也 只 是 近期 应 用 深度 学 习 的 方法 
使 得 语音 识别 的 识别 率 大 大 提升 。Mohamed EAT, Li SAL? 和 Deng 等 
人 中 均 指出 ， 在 大 规模 的 DNN 中 使 用 原始 Mel 域 的 滤波 器 组 特征 替代 MECC 
可 以 使 错误 率 显著 降低 。 这 些 结果 说 明 ，DNN 可 以 从 Mel 域 的 滤波 器 组 特征 
中 学 习 到 比 固定 余弦 变换 更 好 的 变换 。 

相 比 于 MFCC ， 原 始 频 域 特征 不 仅 保留 了 更 多 的 信息 ， 而 且 可 以 使 用 卷 
积 和 池 化 (pooling) 操作 来 表达 和 处 理 一 些 典 型 的 语音 多 变性 一 一 例如 ， 说 
话 人 的 声带 长 度 差异 ,不 同 发 音 风格 引起 的 共振 峰 位 置 差异 等 ， 而 这 些 多 样 
性 都 隐 含 在 频 域 中 。 例 如 ， 只 有 用 频 域 特征 替换 MFCC 特征 之 后 ， 卷 积 神经 
网 络 (Convolutional Neural Network, CNN) 方 可 有 意义 并 有 效 地 应 用 在 语音 识 
别 中 号 2324] o 

HUE, Sainath 等 人 "| 通过 学 习 定 义 在 能 量 谱 上 的 滤波 器 组 参数 ， 向 原始 
特征 又 迈进 一 步 。 也 就 是 说 ， 与 文献 [1, 3, 50, 221] 中 使 用 Mel 域 的 滤波 
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器 组 特征 作为 输入 不 同 的 是 ，Mel 域 滤波 器 的 权 值 仅 用 于 初始 化 参数 ， 再 和 其 
余 的 深度 神经 网 络 层 参数 一 起 进行 学 习 ， 得 到 分 类 器 。 上 述 同时 学 习 特 征 产生 咒 
和 分 类 器 的 架构 如 图 7.1 所 示 。 结 果 表 明 ， 这 种 方法 使 得 识别 错误 率 大 大 
R, 
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non-linearity (i.e., log) 
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7.1 滤波 器 参数 和 其 他 深度 网 络 参数 同时 学 习 



































中 词语 翻译 对 照 表 
output target 输出 目标 
Convolutional Neural Network 卷 积 神经 网 络 
log- mel feature 对 数 域 梅 尔 特征 
non-linearity (ie. , log) 非 线性 〈 比 如 对 数 函 数 ) 
mel-filterbank features 梅 尔 滤 波 器 组 特征 
filter 1 filter 2…filter 39 filter 40 滤波 器 1 滤波 器 2…… 滤 波 嚣 39 ”滤波 器 40 
power spectrum 功率 谱 





事实 证 明 ， 学 习 频 域 特征 和 时 域 特征 对 语音 识别 都 是 十 分 有 益 的 ">1。 最 
E, Yu 等 人 “通过 对 网 络 进 行 逐 层 分析 , 来 揭示 原始 滤波 器 组 特征 作为 输入 
时 DNN 不 同 层 的 性 质 。 他 们 指出 使 用 DNN 所 带 来 的 语音 识别 准确 率 的 提升 ， 
部 分 归功 于 DNN 能 够 提取 区 分 性 内 部 表示 的 特性 ， 这 一 特性 对 于 多 种 来 源 的 
语音 信号 可 变性 是 鲁 棒 的 。 他 们 也 发 现 ， 网 络 高 层 获得 的 区 分 性 的 内 部 表示 对 
输入 层 的 微小 扰动 不 敏感 ， 这 一 特点 帮助 了 语音 识别 率 的 提高 。 

最 后 ， 深 度 学 习 将 促进 更 底层 原始 语音 特征 (如 语音 波形 ) 的 使 用 来 进 
行 语 音 识别 ， 并 自动 学 习 特 征 变 换 。Jaidy 和 Hinton|'*! 对 上 述 目标 进行 了 最 初 
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的 尝试 ， 他 们 将 原始 语音 波形 作为 具有 卷 积 结构 的 RBM 的 输入 来 训练 分 类 需 。 
在 隐 层 使 用 整流 线性 单元 (rectified linear units) ， 可 在 一 定 程度 上 自动 地 对 语 
音波 形 幅 度 变 化 进行 归 一 化 。 虽 然 最 终 实验 结果 并 不 是 很 好 ， 但 是 这 项 工作 说 
明 在 使 用 原始 特征 方向 上 有 待 更 深入 的 研究 。 例 如 ，Sainath 等 人 "的 研究 表 
BA, 使 用 原始 语 谱 作为 特征 输入 相 比 于 MFCC ， 需 要 在 归 一 化 上 额外 注意 ， 而 
使 用 语音 波形 在 归 一 化 方面 则 更 需 注 意 "”] 。 无 论 是 在 GMM 还 是 深度 学 习 的 
方法 中 ， 这 一 点 均 得 到 验证 。 


7.1.2 DNN- HMM 架构 和 使 用 DNN 生成 特征 的 对 比 


近来 另 一 个 研究 热点 是 在 使 用 深度 学 习 方 法 的 语音 识别 中 两 种 巡 然 不 同 的 
方式 : (1) 如 5.3 节 ， 直 接 使 用 DNN- HMM 架构 进行 语音 识别 ; (2) 首先 使 
用 DNN 提取 特征 ， 然 后 将 其 作为 一 个 独立 的 序列 分 类 器 的 输入 。 在 语音 识别 
领域 “| ， 神 经 网 络 的 输出 直接 用 于 估计 HMM 的 发 射 概率 的 系统 称 为 ANN/ 
HMM 混合 系统 。 第 5 章 和 本 书 其 余部 分 所 说 的 “混合 ” 指 的 是 : 为 了 学 习 
DNN 的 参数 ， 将 无 监督 的 预 训 练 和 有 监督 的 精 调 相 混合 ，ANNZHMM 混合 系 
统 中 所 说 的 “混合 ”和 这 种 “混合 ”是 不 一 样 的 。 

7.1.2.1 DNN-HMM 架构 作为 识别 器 

早期 的 DNN- HMM 架构 ‘1 是 在 NIPS 研讨 会 [1 上 提出 的 ， 该 架构 由 多 伦 
多 大 学 和 微软 研究 院 的 语音 研究 者 建立 。 在 这 项 工作 中 ,使 用 5 层 DNN (在 
论文 中 称 为 DBN) 替换 GMM- HMM 系统 中 的 混合 高 斯 模型 (GMM) ， 并 以 单 
音素 (monophone) 状态 作为 建 模 单元 。 尽 管 单 音 素 比 三 音素 (triphone) 的 表 
征 能 力 差 一 些 ， 但 使 用 单 音 素 DNN- HMM 架构 的 方法 却 比 当时 最 先进 的 三 音素 
GMM- HMM 系统 识别 率 更 高 。 此 外 ，DNN 的 结果 还 略 优 于 当时 最 好 的 隐 生 成 轨 
迹 模型 (Hidden Trajectory Model, HTM) [105,108] 系统。 这 些 实验 都 是 在 研究 者 熟 
知 的 TIMIT 数据 上 得 到 的 结果 ， 并 且 采 用 相同 的 评测 方法 5 ME! 。 在 雷 德 蒙 
德 的 微软 研究 院 ， 通 过 对 这 两 个 相互 独立 的 系统 (DNN A HTM) 的 仔细 分 析 ， 
发 现 它们 产生 的 错误 类 型 大 相 径 庭 ， 这 反映 了 两 种 方法 的 核心 能 力 不 同 ， 引 发 了 
XF DNN- HMM 方法 更 多 更 深入 的 研究 ， 下 面 将 对 这 些 研 究 进 行 描述 。 

微软 研究 院 和 多 伦 多 大 学 的 研究 者 '”% 趾 将 DNN- HMM 系统 从 单 音素 表 
示 扩 展 到 三 音素 表示 或 上 下 文 相关 的 表示 ， 从 音素 识别 扩展 到 大 词汇 量 语 音 识 
别 。 微 软 研究 院 在 24 小 时 和 48 小 时 的 Bing 语音 搜索 的 录音 数据 上 的 实验 结 
果 表 明 ， 上 下 文 相 关 的 DNN- HMM 性 能 明显 优 于 主流 的 GMM-HMM 系统 。 除 
了 使 用 DNN 之 外 ， 还 有 三 个 因素 促进 了 这 项 研究 的 成 功 : 使 用 绑 定 三 音素 作 
为 DNN 建 模 单元 ; 状态 对 齐 结果 由 最 好 的 三 音素 GMM- HMM 系统 给 出 ;很 好 
地 利用 长 窗 输 入 特征 。 实 验 还 表明 ， 使 用 5 层 DNN- HMM 系统 的 解码 时 间 几 
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乎 与 最 先进 的 GMM- HMM 系统 相同 。 

这 些 成 功 迅速 扩展 到 具有 几 百 甚至 几 千 小 时 的 训练 数据 ， 具 有 几 千 个 三 音 
素 状 态 的 大 词汇 量 语音 识别 任务 ， 包 括 Switchboard 和 广播 新 闻 数 据 集 Google 
语音 搜索 和 YouTube 等 任务 [346.284 .39931324 ”了 SwitchBoard 为 例 ， 与 最 先进 
的 GMM-HMM 系统 相 比 ， 上 下 文 相关 的 DNN-HMM ( context- dependent 
DNN- HMM ,CD- DNN- HMM) 使 识别 错误 下 降 了 三 分 之 一 。 表 7. 1 总结 了 一 些 
早期 基于 最 基本 的 DNN- HMM 结构 的 文献 和 之 前 最 先进 的 生成 式 模 型 的 语音 
识别 错误 率 对 比 (有 更 好 结果 的 高 级 系统 没有 在 这 个 表 中 列 出 )。 应 该 注意 的 
是 ,表格 中 从 A 到 D， 即 从 一 个 任务 到 下 一 个 ， 数 据 量 增加 了 近 一 个 数量 级 。 
随 着 数据 集 的 增 大 ， 任 务 的 计算 量 也 随 之 (几乎 线性 ) EF, 最 重要 的 是 相 
对 错误 率 下 降幅 度 非 常 明 显 一 一 从 大 约 10% 到 20% ， 再 到 30% 。 尽 管 DNN- 
HMM 整体 架构 的 概念 简单 ， 并 有 一 些 公 认 的 缺点 ， 但 是 这 些 实验 已 经 足够 证 
明 DNN 方法 强大 的 描述 能 

表 7.1 展示 了 DNN- HMM 架构 和 生成 式 模型 (如 GMM-HMM) 就 音素 或 
词 错 误 率 的 对 比 。 从 A 到 D， 数 据 集 的 增长 接近 三 个 数量 级 。 


表 7.1 


A: TIMIT Phone recognition (3hours of training ) 




















GMM W. Hidden dynamics 24. 8% 
DNN 5 layers x 2048 23.0% 
B: Voice Search SER (24-48 hours of training) 
GMM MPE (760 24- mix) 36.2% 
DNN 5 layers x 2048 30. 1% 
C: Switch Board WER (309 hours of training) 
GMM BMMI (9K 40- mix) 23.6% 
DNN 7 layers x 2048 15. 8% 
D: Switch Board WER (2000 hours of training ) 
GMM BMMI (18K 72- mix) 21.7% 
DNN 7 layers x 2048 14.6% 


表 中 词语 翻译 对 照 表 




















Features 特征 
Setup 实验 设置 
Error Rates 错误 率 
TIMIT Phone recognition (3 hours of training) TIMIT 音素 识别 (3 小 时 训练 ) 
Voice Search SER (24 -48 hours of training) 语音 搜索 句 错误 率 (24 ~48 小 时 训练 ) 
SwitchBoard WER (309 hours of training) SwitchBoard 词 错 误 率 (309 小 时 训练 ) 
SwitchBoard WER (2000 hours of training) SwitchBoard 词 错误 率 (2000 小 时 训练 ) 
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7.1.2.2 在 独立 的 识别 器 中 使 用 DNN 提取 的 特征 

对 于 语音 识别 而 言 ， 上 述 DNN- HMM 架构 的 一 个 明显 缺点 是 ， 在 过 去 20 
年 间 提 出 的 很 多 针对 GMM- HMM 行 之 有 效 的 技术 ， 如 区 分 性 训练 (特征 空间 
和 模型 空间 ) 、 无 监督 说 话 人 自 适 应 算法 、 品 声 鲁 棒 算 法 和 在 大 数据 集 下 可 伸 
缩 的 批 训练 工具 可 能 无 法 直接 应 用 到 新 的 系统 中 ， 尽 管 近来 DNN- HMM 架构 
也 采用 了 类 似 的 技术 。 利 用 Hermansky 等 人 "最 初 提 出 的 “串联 ” (tandem) 
方法 可 以 有 效 地 解决 这 个 问题 ， 这 个 方法 将 神经 网 络 的 音素 后 验 概率 输出 和 声 
学 特征 相 结合 ， 从 而 生成 新 的 扩展 特征 来 作为 独立 GMM- HMM 系统 的 输入 。 

Vinyal 和 Ravuri?”! 使 用 这 个 串联 方法 将 DNN 的 输出 作为 不 匹配 的 带 噪 语 
音 的 特征 。 他 们 的 研究 表明 : 在 无 噪声 的 情况 下 DNN 是 优 于 单 层 神经 网 络 的 ， 
但 是 随 着 噪声 加 大 ， 这 个 优势 逐渐 消失 。 此 外 ， 在 低 品 或 中 等 噪声 情况 下 的 串联 
结构 ， 使 用 MFCC 和 DNN 后 验 结合 的 特征 是 优 于 只 用 DNN HIERS Tüske 和 
Imseng!') 比较 了 这 种 串联 方法 和 直接 使 用 DNN- HMM 方法 的 效果 。 

另 一 种 提取 DNN 特征 的 方法 是 使 用 “瓶颈 ” (bottleneck) 层 ， 它 比 DNN 
的 其 他 层 节 点 数 都 少 ， 目 的 是 为 了 限制 网 络 的 容积 。 这 种 瓶颈 层 特征 ， 通 常 和 
原始 声学 特征 相 结合 并 加 以 其 他 降 维 技术 ， 作 为 GCMM- HMM 系统 的 输入 。 一 
般 认为 DNN 生成 的 瓶颈 层 特 征 ， 可 以 当 作 从 短 时 频谱 中 提取 的 声学 特征 的 一 
个 补充 。Yu 和 Seltzerl4251 基 于 上 述 瓶 颈 层 特征 构建 了 语音 识别 器 ， 其 结构 如 图 
7.2 所 示 。 一些 基于 DNN 瓶颈 层 特征 的 若干 变种 方法 参见 文献 [16, 137, 


201, 285, 308, 368]. 
ğ GMM-HMM j 
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2048 units 
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7.2 使 用 DNN 瓶颈 层 提 取 的 特征 (BN) 作为 GMM- HMM 输入 的 识别 器 
(参考 文献 [425] @ IEEE) 














图 中 词语 翻译 对 照 表 
Senone Output 音素 状态 输出 
units 单元 
frame input 帧 输入 
Transformed 变换 
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还 有 男 一 种 由 DNN 生成 特征 的 方法 ， 是 将 网 络 最 后 一 个 隐 层 的 输出 作为 
新 的 独立 识别 器 的 输入 。 在 文献 [399] 中 使 用 的 GMM- HMM 识别 器 中 ， 其 输 
JRA DNN 的 高 维 输出 经 过 降 维 后 得 到 的 特征 。 在 最 新 的 研究 中 ， 递 归 神 经 
网 络 (Recurrent Neural Network, RNN) 充当 后 端 识别 器 ，DNN 的 高 维 输出 不 
经 过 降 维 而 直接 将 其 作为 特征 :5 输入 给 该 识别 器 。 这 些 研究 也 表明 ， 从 
RNN 序列 识别 器 的 识别 精度 来 看 ， 使 用 DNN 最 高 隐 层 作为 特征 相 比 其 他 隐 层 
或 输出 层 的 效果 更 好 。 


7.1.3 深度 学 习 对 噪声 的 鲁 棒 性 


关于 语音 识别 噪声 鲁 棒 性 的 研究 已 经 有 很 长 的 历史 ， 比 深度 学 习 的 出 现 都 
要 早 的 多 。 一 个 主要 原因 是 基于 GMM- HMM 的 声学 模型 对 于 不 同 加 噪 测试 数 
据 的 脆弱 性 ， 这 是 由 于 带 噪 的 测试 数据 在 特性 上 与 训练 数据 〈 可 能 带 噪 或 不 
WR) 不 同 所 导致 的 。 按 以 下 5 个 不 同 准则 对 过 去 30 年 中 的 噪声 鲁 棒 技 术 进 
行 分 析 及 分 类 : (1) 特征 域 与 模型 域 的 处 理 ; (2) 使 用 声学 环境 失真 的 先 验 
知识 ; (3) 显 式 地 使 用 环境 失真 模型 ; (4) 确定 与 不 确定 的 处 理 方 式 ; 
(5) 使 用 与 测试 阶段 相同 的 特征 增强 或 者 模型 自 适应 技术 训练 的 声学 模型 。 读 
者 可 以 参考 综述 [220] 帮助 理解 ， 还 有 一 些 其 他 的 综述 材料 和 原始 工作 可 参 
考 文献 [4, 82, 119, 140, 230, 370, 404, 431, 444], 

许多 在 模型 层面 提出 的 GMM- HMM 4c aR 〈( 如 Li A”! A Gales' 
关于 模型 域 的 噪声 鲁 棒 性 研究 ) 并 不 可 以 直接 应 用 到 深度 学 习 的 语音 识别 中 ， 
而 特征 层面 的 技术 则 可 以 直接 应 用 到 DNN 系统 中 。Seltzer AC?! 对 特征 层面 
语音 识别 噪声 鲁 棒 性 进行 了 深入 的 研究 ， 他 们 在 DNN 的 输入 特征 层 应 用 了 C- 
MMSE“? 特征 增强 算法 。 通 过 对 训练 数据 和 测试 数据 使 用 相同 的 算法 ，DNN- 
HMM 识别 器 可 以 学 习 到 增强 算法 引入 的 一 致 性 错误 和 失真 。 这 项 研究 也 成 功 
地 探索 了 噪声 察觉 (noise-aware) 的 DNN 训练 模式 ， 其 中 将 对 噪声 的 估计 拼 
接 到 每 个 观测 上 ， 在 Auroras 任务 中 取得 了 很 突出 的 效果 。 最 近 ， Kashiwagi 等 
人 "中 在 DNN 识别 器 使 用 SPLICE 特征 增强 技术 "3 DNN 输出 层 由 没有 噪声 
的 数据 决定 ， 而 在 Seltzer ££ A 的 工作 中 ，DNN 输出 层 是 由 加 噪 数 据 决 
定 的 。 

除了 DNN ， 研 究 者 们 也 提出 了 其 他 用 于 特征 增强 和 噪声 鲁 棒 性 语音 识别 
的 深度 网 络 架 构 。 例 如 ，Mass EAC | 使 用 深度 回归 自动 编码 器 网 络 来 消除 输 
入 特征 中 的 噪声 。 模 型 是 由 加 品 和 无 噪 并 行 的 语音 特征 训练 ， 用 来 在 有 噪 输入 
的 条 件 下 预测 无 噪声 特征 ， 实 验 设置 与 SPLICE 相似 ， 不 同 之 处 是 使 用 深度 模 
型 替代 GMM, Vinyals 和 Ravuri ”研究 了 噪声 鲁 棒 性 语音 识别 的 串联 ( tan- 
dem) 方法 ， 其 中 DNN 用 噪声 数据 直接 训练 并 生成 后 验 特 征 。 最 后 Rennie 等 
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人 00 探索 使 用 一 种 RBM 来 做 噪声 鲁 棒 性 识别 ， 称 为 因子 化 隐 RBM, 
7.1.4 DNN 的 输出 表示 


在 语音 识别 和 其 他 信息 处 理应 用 中 ， 大 多 数 深度 学 习 方 法 在 没有 过 多 考虑 
输出 表示 的 情况 下 ， 着 眼 于 从 输入 声学 特征 来 学 习 表 示 上 。 最 近 2013 NIPS X 
于 学 习 输 出 表示 的 研讨 会 (http: //nips. ec/Conferences/2013/Program/e- 
vent. php? ID =3714) 致力 于 弥补 这 一 不 足 。 例 如 ， 将 在 第 11 章 讨论 的 深度 
视觉 语义 向 量 模型 (Deep Visual- Semantic Embedding Model ) NT) ”利用 从 文本 
向 量 中 得 到 的 连续 值 输出 表示 ， 来 帮助 深度 网 络 对 图 像 进行 分 类 。 文 献 [79] 
强调 了 在 语音 识别 中 为 神经 网 络 输出 层 设 计 有 效 的 语言 表示 的 重要 性 。 

现在 ， 大 多 数 的 DNN 系统 使 用 高 维 的 输出 层 表示 ， 来 匹配 HMM 中 上 下 
文 相关 的 音素 状态 。 由 于 这 个 原因 ， 输 出 层 的 计算 会 消耗 总 计算 时 间 的 1/3, 
为 了 提高 解码 速度 ， 通 常 将 低 秩 近似 (low- rank approximation) 应 用 到 输出 层 。 
在 文献 [310] 和 [397] 中 ,首先 训练 高 维 输出 层 的 DNN。 然 后 应 用 奇异 值 
分 解 (Singular Value Decomposition, SVD) 对 输出 层 和 矩阵 进行 降 维 。 输 出 矩阵 
进一步 合并 ， 用 两 个 小 矩阵 乘积 作为 原始 大 权 值 矩阵 的 近似 结果 。 这 种 技巧 实 
质 上 将 原始 高 维 输出 层 转换 为 两 层 一 一 一 个 瓶颈 线性 层 和 一 个 非 线性 输出 
层 一 一 两 者 都 具有 很 小 的 权重 矩阵 。 降 维 转换 后 的 DNN 被 进一步 优化 。 实 验 结 
果 表 明 ， 即 使 输出 层 大 小 减少 一 半 ， 识 别 率 也 不 会 降低 ， 同 时 也 会 大 幅度 减少 
计算 时 间 。 

文献 [79] 中 提出 ， 语 音 识别 的 输出 表示 可 以 从 符号 或 音 系 单位 结构 化 
的 设计 中 获 益 。 众 所 周知 ， 人 类 语音 具有 丰富 的 符号 本 质 音素 结构 。 同 样 的 ， 
长 久 以 来 ,在 工程 应 用 的 语音 识别 系统 中 ， 使 用 音素 或 更 精细 的 状态 序列 ， 即 
使 上 下 文 相 关 ， 也 不 足以 表示 这 种 丰富 的 结构 5225 。 因 此 ， 符 号 或 音 系 单 
位 的 设计 也 是 提高 语音 识别 系统 性 能 的 有 价值 的 研究 方向 。 文 献 【76] 和 最 
近 的 文献 [79] 综述 了 语音 内 部 结构 的 基本 理论 和 语音 识别 技术 的 相关 性 ， 
例如 语音 模型 输出 表示 的 确定 、 设 计 与 学 习 。 

在 语音 识别 中 ， 着 眼 于 设计 与 语言 结构 相关 的 输出 表示 ， 成 为 基于 深度 学 
习 的 语音 识别 中 越 来 越 热 的 研究 方向 。 文 献 [383，384] 论证 了 基于 上 下 文 
相关 的 音素 单元 的 局 限 并 提供 了 一 种 解决 方案 '"'“ 。 这 种 限制 的 根本 原因 是 ， 
由 决策 树 创建 的 一 个 类 中 所 有 的 上 下 文 相关 音素 状态 共享 一 套 参 数 ， 这 就 降低 了 
解码 阶段 更 细 粒 度 状态 的 分 辨 能力。 提出 的 解决 方案 是 : 上 下 文 相 关 DNN 的 输 
出 表示 ， 作 为 标准 状态 建 模 (canonical state modeling) 技术 的 一 个 实例 ， 其 中 采 
用 了 更 广泛 的 音素 类 。 首 先 ， 使 用 更 广 的 上 下 文 将 三 音素 聚 类 为 多 个 更 小 的 两 音 
素 集合 。 然 后 ， 训 练 DNN 以 区 分 这 些 两 音素 集合 。 使 用 逻辑 回归 将 标准 状态 转 
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换 为 三 音素 状态 输出 概率 。 也 就 是 说 ， 上 下 文 相关 DNN 输出 层 表 示 的 总 体 设计 
是 自然 的 分 层 结构 ， 同 时 解决 了 数据 稀 踊 性 问题 和 低 分 辩 率 问题 。 

语音 识别 中 ， 设 计 输 出 层 语言 表示 的 相关 工作 可 以 参考 文献 [197] 和 
[241] ， 这 些 设 计 是 在 GMM- HMM 语音 识别 系统 中 ,但 同样 可 以 扩展 到 深度 学 
习 模 型 中 。 


7.1.5 基于 DNN 的 语音 识别 器 自 适应 


DNN- HMM 是 20 世纪 90 年 代 人 工 神经 网 络 和 HMM 混合 系统 的 升级 版 本 ， 
这 期 间 出 现 了 很 多 自 适 应 技术 ， 其 中 大 部 分 是 基于 对 输入 层 或 输出 层 的 网 络 权 
值 的 线性 变换 。 许 多 基于 DNN 的 自 适应 探索 性 研究 使 用 和 上 面相 同 或 相近 的 
线性 变换 方法 “2 。 然 而 ， 与 早期 的 窗 层 和 浅 层 神经 网 络 系统 相 比 ， 
DNN- HMM 的 参数 个 数 明 显 变 多 ， 这 是 因为 DNN- HMM 需要 更 深 更 宽 的 隐 层 
结构 和 更 多 的 上 下 文 相 关 的 音素 和 状态 输出 。 这 种 不 同 给 DNN- HMM 系统 的 
自 适 应 提出 了 新 挑战 ， 尤 其 是 在 自 适 应 中 数据 较 少 的 情况 下 。 这 里 我 们 将 讨论 
在 大 规模 DNN 系统 下 最 新 的 几 个 具有 代表 性 的 研究 ， 这 些 研究 则 在 克服 上 述 
的 挑战 。 

Yu EA EE T DNN 正则 化 (regularized) 自 适 应 技术 。 通 过 强制 自 适 
应 模型 估计 出 来 的 分 布 与 自 适应 前 的 接近 ， 来 适当 地 修正 权 值 。 这 个 约束 通过 
对 自 适 应 规则 增加 Kullback- Leiblers 散 度 (Kullback- Leibler Divergence, KLD) 
正则 化 来 实现 。 这 种 正则 化 方法 与 传统 误差 反 向 传播 算法 修正 目标 分 布 是 等 价 
的 ， 因 此 DNN 模型 训练 过 程 几乎 不 用 做 改动 。 新 的 目标 分 布 由 自 适 应 之 前 的 
模型 分 布 的 插值 和 真实 数据 与 自 适应 数据 的 对 齐 得 到 。 这 种 插值 通过 防止 自 适 
应 模型 远离 说 话 人 无 关 模 型 ， 从 而 避免 过 训练 (overtraining)。 这 种 正则 化 的 
自 适应 方法 与 L2 正则 化 不 同 ，L2 正则 化 限制 模型 参数 本 身 而 非 输 出 概率 。 

在 文献 [330] 中 ，DNN 自 适应 不 在 传统 的 网 络 权 值 上 ， 而 是 在 隐 层 激活 
函数 上 进行 。 因 为 这 种 方法 仅 需要 对 一 定数 量 的 隐 层 激活 函数 进行 自 适 应 ， 所 
以 有 效 地 克服 了 现 有 基于 线性 变换 自 适应 方法 依赖 于 输入 或 输出 层 权 值 的 
弱点 。 

我 们 注意 到 ， 一 些 无 监督 或 半 监 督 的 自 适 应 DNN 声学 模型 的 方法 也 取得 
T pez 223-4051 。 

最 近 ，Saon APRS TEE A A Td A TIE. X 
种 方法 将 L vectors 特征 和 特征 域 最 大 似 然 线性 回归 (feature- domain max- likeli- 
hood linear regression, f{MLLR) 特征 进行 组 合作 为 DNN 的 输入 。I-vectors (I- 
dentity vectors ) ATs AU A A ll ’ 该 方法 可 以 将 说 话 人 的 相 
关 信息 封装 为 一 个 低 维 特征 。 而 {MLLR 是 GMM- HMM 系统 自 适应 的 一 种 非常 
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有 效 的 技术 。 由 于 LI vector 不 服从 频率 的 局 部 性 ， 因 此 必须 与 服从 频率 局 部 性 
的 fMLLR 特征 进行 组 合 才能 发 挥 效 力 。 多 尺度 的 CNN-DNN 架构 拥有 组 合 不 同 
类 型 特征 的 特性 。 因 此 在 解码 阶段 和 训练 阶段 ， 特 定 说 话 人 的 IL- vector 特征 都 
附加 到 帧 级 的 fMLLR 特征 之 后 。 


7.1.6 更 好 的 架构 和 非 线 性 单元 


最 近 几 年 中 ， 自从 全 连接 (fully- connected ) DNN- EMM 88109 161,257, 258,308,309 ,324,429] 
混合 系统 的 巨大 成 功 之 后 ， 研 究 者 们 提出 了 许多 新 架构 和 非 线性 单元 ， 并 评估 
了 它们 在 语音 识别 中 的 功效 。 这 里 ， 我 们 将 对 这 些 工 作 的 发 展 进行 综述 ， 作 为 
对 文献 [89] 中 综述 的 扩充 。 

Yu 等 人 [2,2] 介绍 了 DNN 的 张 量 (tensor) 版 本 ， 对 传统 的 DNN 进行 了 
扩展 ， 使 用 双 投 影 层 和 张 量 层 替代 DNN 中 的 一 层 或 多 层 。 在 双 投 影 层 ， 任 一 
输入 向 量 投影 到 两 个 非 线 性 的 子 空间 。 在 张 量 层 ， 两 个 子 空间 投影 相互 作用 ， 
在 整个 深度 架构 中 共同 预测 下 一 层 。 一 种 方法 是 将 张 量 层 映 射 到 传统 的 sigmoid 
函数 层 ， 因 此 前 者 就 可 以 像 后 者 一 样 进行 处 理 和 训练 。 由 于 这 种 映射 ， 张 量 型 
的 DNN 可 以 看 成 是 对 DNN 使 用 双 投 影 层 进行 扩充 ， 这 样 后 向 传播 学 习 算 法 便 
可 以 清晰 地 推导 ， 也 相对 容易 实现 。 

和 上 述 相关 的 一 个 架构 是 第 6 节 介 绍 的 张 量 型 DSN， 它 可 以 有 效 地 应 用 到 
语音 分 类 和 识别 领域 。 采 用 同样 的 方法 将 张 量 层 (BI DSN 上 下 文 的 许 
多 模块 的 顶层 ) 映射 到 传统 的 sigmoid 函数 层 。 这 种 映射 再 一 次 简化 了 训练 算 
法 ,使 其 并 不 偏离 DSN, 

如 3.2 节 的 讨论 ， 时 域 卷 积 的 概念 源 于 延 时 神经 网 络 (time- delay neural 
network ，TDNN ) ， 并 作为 一 种 浅 层 神经 网 络 "*”*| 在 早期 语音 识别 中 得 到 了 发 
展 。 最 近 ， 研 究 者 发 现 应 用 深层 架构 ( 如 深度 卷 积 神经 网 络 CNN) 后 ,在 高 
性 能 音素 识别 任务 中 ， 当 HMM 用 来 处 理 时 间 可 变性 时 ， 频 率 域 权 值 共享 比 之 
前 类 似 TONN 中 的 时 域 权 值 共享 更 为 有 效 (TDNN 不 使 用 HMM) SS jc ate 
人 研究 也 说 明 合 理 的 设计 池 化 (pooling) 策略 ， 并 结合 “dropout” 正 则 化 技 
ART ， 可 以 对 声 道 长 度 不 变性 和 语音 发 音 之 间 的 区 分 性 进行 有 效 折 中 ， 从 而 
达到 更 好 的 识别 结果 。 这 些 工 作 进 一 步 指 出 : 使 用 池 化 和 卷 积 在 混合 的 时 域 和 
MRE, ， 对 贯穿 整个 语音 动态 特性 的 轨迹 区 分 性 和 不 变性 进行 折 中 ， 是 一 个 重 
要 的 研究 方向 。 此 外 ， 最 近 的 研究 报告 .2222 也 显示 ， 大 词汇 量 连 续 语 音 识 
别 也 可 以 从 CNN 中 受益 。 这 些 研 究 进一步 说 明 : 使 用 多 个 卷 积 层 ， 且 卷 积 层 
使 用 大 量 卷 积 核 或 特征 映射 时 ， 会 有 更 大 的 性 能 提升 。Sainath' "广泛 探索 了 
许多 深度 CNN 的 变种 。 在 和 许多 新 方法 的 结合 下 ， 深 度 CNN 在 一 些 大 词汇 量 
语音 识别 任务 上 取得 了 领先 的 结果 。 
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除了 DNN, CNN, DSN 和 它们 对 应 的 张 量 版 ， 许 多 其 他 深度 模型 在 语音 
识别 领域 也 得 到 了 应 用 和 发 展 。 比 如 ， 深 度 结构 的 CRF， 它 具有 很 多 堆 琶 的 
CRF 层 ， 也 有 效 地 应 用 到 了 语种 识别 "2 IARI 、 自 然 语 言 处 理 中 的 
序列 标注 “1 、 语 音 识别 中 的 置信 和 度 校 正 * 1 等 许多 任务 。 最 近 ，Demuynck 和 
Triefenbach' "1 发展 了 深度 GMM (deep GMM) 架构 ，DNN 强大 的 性 能 得 到 借 
鉴 并 应 用 到 构建 分 层 的 GMM。 他 们 的 研究 表明 ， 结 构 “ 变 深 与 变 宽 ”"”， 同 时 将 
底层 GMM 的 加 窗 概率 输入 到 高 层 GMM 中， 深度 GMM 系统 的 性 能 足以 与 
DNN 相 比 。GMM 空间 的 一 个 优点 是 : 数 年 以 来 在 GMM 上 的 自 适 应 和 判别 式 
学 习 方法 仍然 适用 。 

或 许 最 值得 注意 的 深度 结构 是 回归 神经 网 络 (RNN) 及 其 堆 番 或 深度 版 
本 35,364323,37] 尽管 RNN 最 早 在 音素 识别 52 中 取得 成 功 ， 但 由 于 其 训练 
的 错综复杂 性 ， 很 难 推广 ， 更 不 用 说 应 用 在 大 规模 的 语音 识别 任务 上 了 。 此 
后 ，RNN 的 学 习 算 法 得 到 很 大 的 提升 ， 也 获得 了 更 好 的 结果 ， 特 别 是 双向 长 
短 时 记忆 ( Bi- directional Long Short-Term Memory, BLSTM) 单元 的 使 用 。 双 
向 RNN 的 信息 流 和 LSTM 的 基本 单元 分 别 如 图 7.3 和 7.4 所 示 。 





Outputs San AY sg Y, War ce 


Backward Layer ai 2 > 
Forward Layer > 


Inputs vee Ler Tt Vitl + 
— > 
h =H (WR + Wo heat bz) 
+ + 
hy =H (W500 + Wes, hi tby) 
> < 
yi = We, het We, het by 


图 7.3 双向 RNN 的 信息 流 ， 给 出 了 示意 图 和 数学 公式 。 妈 是 权 值 矩阵 ， 
图 中 没有 标注 出 来 (参考 文献 [136], @ IEEE) 
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中 词语 翻译 对 照 表 
Output 输出 
Backward Layer 后 向 层 
Forward Layer 前 向 层 
Inputs 偷 入 














Lt 


ig = 0 (Waite + Wniht—-1 + Weice_1 + bi) 

fe =o (Wapae + Waghe-1 + Wepee-1 + bf) 
ct = fece_1 + ty tanh (Wrc£t + Whehe-1 + be) 
0 二 0 (Wrot + Whoht-1 + Weoct + bo) 
hi = o; tanh(c;) 


图 7.4 RNN 中 LSTM 单元 的 信息 流 ， 给 出 了 示意 图 和 数学 公式 。 
丈 是 权 值 矩阵 ， 图 中 没有 标注 出 来 (参考 文献 [136] ，@IEEE) 




















图 中 词语 翻译 对 照 表 
Input Gate 输入 门 
Output Gate 输出 门 
Forget Gate 忘记 门 
Cell 单元 
众所周知 ， 由 于 梯度 消失 或 者 爆炸 的 问题 ， 学 习 RNN 的 参数 十 分 困 


WE, Chen 和 Deng'*”| 开 发 了 一 种 原始 -对 侦 (primal- dual) 的 训练 方法 ， 它 





深度 学 习 ， 方 法 及 应 用 


将 RNN 的 学 习 问 题 抽 象 为 标准 的 优化 问题 ， 通 过 最 大 化 交叉 烂 ， 限 制 RNN 的 循 
环 和 矩阵 小 于 固定 的 值 ， 从 而 保证 动态 RNN 的 稳定 性 。 在 音素 识别 的 实验 结果 如 
下 : (1) 原始 - 对 偶 技 术 对 训练 RNN 非常 有 效 ， 优 于 早先 限制 梯度 的 启发 式 方 
法 。(2) 使 用 DNN 计算 的 高 层 语音 特征 作为 RNN 的 输入 , 相 比 没有 使 用 DNN， 
其 识别 精度 更 高 。(3) 当 从 高 层 到 低层 提取 DNN 特征 时 ， 识 别 精度 逐渐 下 降 。 

RNN 的 一 种 特殊 形式 是 储藏 模型 (reservoir models) 或 回响 状态 网 络 
(echo state network) ， 其 中 将 普通 RNN 中 的 输出 层 非 线性 单元 改 为 固定 的 线性 
单元 ， 权 值 矩 阵 是 精心 设计 而 非 训练 学 习 所 得 。 由 于 参数 学 习 的 困难 性 ， 输 入 
和 矩阵 也 是 固定 的 ， 并 非 学 习 而 来 。 只 有 隐 层 和 输出 层 之 间 的 权 值 矩 阵 是 通过 学 
习 而 来 。 由 于 输出 是 线性 的 ， 全 局 优化 有 封闭 形式 的 解 ， 所 以 参数 学 习 非 常 高 
效 。 但 是 因为 许多 参数 并 非 学 习 得 到 ， 所 以 隐 层 必须 足够 大 才能 获得 足够 好 的 
结果 。Triefenbach'*” 将 这 种 模型 应 用 到 音素 识别 ， 获 得 了 不 错 的 识别 精度 。 

Palangi 等 人 “和 提出 了 一 个 上 述 储藏 模型 的 改进 版 。 在 该 模型 中 ， 之 前 固 
定 的 输入 和 回归 德 阵 都 是 通过 学 习 得 到 的 。 之 前 模型 使 用 线性 输出 (或 “ 读 
tH” readout) 去 简化 RNN 输出 矩阵 的 学 习 。 而 且 ， 他 们 提出 了 一 种 利用 储藏 
模型 的 线性 输出 学 习 输入 矩阵 和 回归 和 矩阵 的 特殊 技术 。 与 训练 一 般 RNN 的 时 
间 误 差 反 向 传播 算法 (backpropagation through time, BPTT) 相 比 ， 这 个 技术 给 
利用 线性 输出 单元 特性 给 RNN 中 不 同 的 矩阵 增加 了 限制 ， 替 换 BPTT 的 递归 
梯度 ， 以 可 分 析 的 形式 学 习 信号 来 计算 梯度 。 

除了 上 面 介绍 的 最 近 用 于 语音 识别 的 深度 学 习 模 型 之 外 ， 近 来 在 设计 和 实 
现 更 好 的 非 线 性 单元 上 也 不 断 涌现 出 新 的 研究 工作 。 尽 管 sigmoid 和 tanh 是 
DNN 最 常用 的 非 线 性 单元 ， 但 它们 的 缺点 也 很 明显 。 例 如 ， 当 网 络 单元 在 两 
个 方向 都 接近 饱和 时 ,梯度 变化 很 小 ， 整 个 网 络 的 学 习 变 得 很 慢 。jJaitly 和 
Hinton! ®! 为 了 克服 sigmoid 单元 的 缺点 ， 最 先 在 DNN 语音 识别 中 使 用 整流 线 
性 单元 (Rectified Linear Units, ReLU), ReLU 是 指 在 网 络 中 使 用 形 如 了 (x) 
=max (0, x) 的 激活 函数 。Dahlisl1 和 Mass!” 成功 地 在 大 词汇 量 语音 识别 上 
应 用 ReLU， 当 结合 ReLU 和 正则 化 技术 dropout 时 获得 最 好 的 识别 精度 。 

最 近 提 出 的 另 一 种 在 语音 识别 上 有 用 的 DNN 单元 是 “最 大 输出 ” ( max- 
out) 单元 ， 它 用 于 构建 深度 最 大 输出 网 络 ， 如 文献 [244] 所 述 。 一 个 深度 最 
大 输出 网 络 由 多 层 以 maxout 为 激活 函数 的 单元 组 成 ， 在 一 组 固定 输入 权 值 上 
进行 最 大 化 (或 称 maxout) 操作 。 这 与 之 前 讨论 的 语音 识别 和 计算 机 视觉 中 
的 最 大 池 化 (max pooling) 类 似 。 每 一 组 最 大 值 作为 前 一 层 的 输出 。 最 近 ， 
Zhang 等 人 王将 maxout 单元 推广 为 两 类 ， 第 一 种 soft- maxout 将 原来 的 最 大 化 
操作 替换 为 soft- max KZ; PAP p- norm 单元 使 用 非 线 性 的 y= || « || se 实验 
表明 ，p- norm 单元 使 用 p = 2 时 ， 比 maxout, tanh 和 ReLU 单元 效果 都 好 。 
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Gulcehre 等 人 1 提出 了 自动 学 习 p- norm 的 方法 。 

最 后 ，Srivastava 等 人 ”| 提出 男 一 类 新 的 非 线 性 单元 ， 称 作 winner- take- 
al 单元 。 他 将 临近 的 神经 元 之 间 的 竞争 纳入 前 向 网 络 结构 ， 之 后 使 用 不 同 的 
梯度 进行 反 向 传播 训练 。Winner-take-all 是 一 种 非常 有 趣 的 非 线 性 单元 的 形 
式 ， 它 建立 了 神经 元 组 (通常 为 2 个 ) ,在 一 组 之 中 ， 除 了 最 大 值 神经 元 ， 其 
他 所 有 神经 元 都 为 0 值 。 实 验 表明 ， 使 用 这 种 非 线性 单元 的 网 络 比 标准 的 sig- 
moid 非 线性 网 络 具 有 更 好 的 记忆 性 。 这 种 新 型 非 线性 单元 还 有 竺 于 在 语音 识 
别 任务 上 评测 。 


7.1.7 更 好 的 优化 和 正则 化 


近期 深度 学 习 应 用 到 语音 识别 声学 模型 上 取得 了 重大 进步 的 男 一 个 领域 是 
优化 准则 和 方法 ， 及 其 相关 的 避免 深度 网 络 过 拟 合 的 正则 化 技术 。 

微软 研究 院 在 早期 DNN TEER AH AY RIE POO! ， 首 先 认识 到 了 传统 DNN 
训练 过 程 中 要 求 的 错误 率 和 交叉 箭 训练 准则 (cross- entropy training criterion ) 
之 间 的 不 匹配 问题 。 解 决 方法 是 : 使 用 基于 全 序列 的 最 大 互信 息 ( Maximum 
Mutual Information, MMI) 为 优化 目标 ， RE MR ERIRE, HE 
HMM 结合 的 浅 层 神经 网 络 中 也 使 用 同样 的 方法 定义 训练 目标 。 同 样 的 ， 这 等 
MFE DNN 的 顶层 加 上 条 件 随 机 场 (Conditional Random Field，CRF) ， 代 替 
A DNN 中 的 softmax 层 〈 注 意 这 篇 论文 中 将 DNN 称 为 DBN) 。 这 个 新 的 序列 
化 判别 式 学 习 技 术 也 用 来 联合 优化 DNN 权 值 、CRF 转移 权 值 和 二 音素 (bi- 
phone) 的 语言 模型 。 这 里 要 注意 的 是 ， 该 语音 任务 数据 集 为 TIMIT， 使 用 一 
个 简单 二 元 音素 的 类 语言 模型 。 二 元 语言 模型 的 简单 性 在 于 ， 它 允许 全 序列 的 
训练 而 不 需要 网 格 (lattice) ， 大 幅度 降低 了 训练 的 复杂 度 。 

作为 文献 [260] 中 另外 一 个 全 序列 训练 方法 (full- sequence training meth- 
od) 的 动机 ， 我 们 注意 到 ， 早 期 的 DNN 音素 识别 任务 是 使 用 交叉 炉 一 一 静态 
分 类 任务 的 标准 帧 级 目标 函数 ， 去 优化 DNN 权 值 的 。HMM 中 状态 转移 参数 和 
语言 模型 的 训练 与 DNN 权 值 训练 独立 。 但 是 ， 众 所 周知 ,在 HMM 的 研究 历 
史 中 ， 序 列 化 分 类 准则 对 提高 语音 识别 和 音素 识别 率 非常 有 帮助 ， 因 为 序列 化 
分 类 准则 与 性 能 评测 方法 (例如 音素 或 词 错误 率 ) EL WT E CH AEE UU FP ALG 
性 更 强 。 更 确切 地 说 ， 使 用 帧 级 交叉 入 准则 训练 音素 序列 识别 的 DNN 时 ， 没 
有 显 式 的 考虑 在 给 帧 分 配音 素 标注 概率 分 布 时 相 邻 帧 之 间距 离 更 小 。 为 了 克服 
这 个 缺点 ， 在 给 定 全 部 可 见 句子 或 等 价 的 DNN 提取 的 隐 层 特征 序列 时 ， 可 以 
优化 整个 标注 序列 的 条 件 概率 。 为 了 优化 训练 数据 对 数 域 的 条 件 概 率 ， 反 向 梯 
度 可 以 由 激活 函数 参数 、 转 移 参 数 和 低层 的 网 络 权 值 获得 ， 然 后 在 句子 级 进行 
误差 反 向 传播 算法 。 我 们 注意 到 在 更 早 的 研究 2 中， 结合 了 CRE 类 似 结构 和 
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神经 网 络 ， 其 数学 形式 把 CRE 作为 一 个 特例 。 此 外 ， 使 用 全 序列 分 类 准则 的 
优势 在 更 早 的 浅 层 神 经 网 络 中 已 经 得 到 证 实 521 。 

在 实现 文献 【260] 中 描述 的 上 述 DNN 系统 的 全 序列 学 习 算 法 时 ，DNN 
网 络 权 值 使 用 帧 级 的 交叉 烂 初始 化 。 转 移 概 率 结合 HMM 转移 矩阵 和 二 元 音素 
语言 模型 得 分 进行 初始 化 ， 并 在 联合 优化 前 通过 固定 DNN 权 值 调节 转移 矩阵 
参数 得 到 进一步 优化 。 使 用 联合 优化 并 加 以 细心 的 调度 以 减少 过 拟 合 ， 全 序列 
训练 比 帧 级 训练 的 DNN 性 能 相对 提高 5% :2 。 如 果 不 采取 减少 过 拟 合 的 措 
施 ，MMI 准则 训练 的 DNN EMR EU BAS BE ATG, ETA A UII 
练 集 、 开 发 集 和 测试 集 数 据 帧 级 之 间 的 相关 性 可 能 不 同 。 更 重要 的 是 ， 这 种 不 
同 在 使 用 帧 级 目标 函数 训练 时 并 未 出 现 。 

对 于 使 用 更 复杂 语言 模型 的 大 词汇 量 语音 识别 ， 优 化 全 序列 的 DNN- HMM 
训练 变 得 更 加 复杂 。Kingsbury 等 人 051 通 过 使 用 并 行 二 阶 的 Hessian- free 优化 
训练 技术 ， 使 得 上 面 的 优化 方法 第 一 次 在 大 词汇 量 语音 识别 中 得 以 实现 。Sain- 
ath °°! 通过 减少 Krylov 子 空间 求解 器 的 迭代 次 数 对 Hessian- free 技术 进行 了 提 
升 和 加 速 ，Krylov 子 空间 用 于 Hessian 的 隐 式 估计 。 他 们 还 采用 了 采样 的 方法 
减少 训练 数据 以 加 速 训 练 。 随 着 分 批 形式 、 二 阶 的 Hessian- free 技术 成 功用 于 
训练 全 序列 的 大 规模 的 DNN- HMM 系统 ， 一 阶 随 机 梯度 下 降 方法 最 近 也 被 成 
SHEA) 。 人 们 发 现 需要 启发 式 搜索 来 处 理 网 格 (lattice) MELE, B 
DNN 必须 通过 基于 帧 的 交叉 焙 训 练 额外 的 迭代 进行 调整 ， 以 更 新 之 后 的 分 子 
网 格 。 而 且 ， 在 分 母 网 格 中 需要 加 入 人 工 的 静音 弧 , 或 者 最 大 互信 息 的 目标 函 
数 需要 通过 帧 级 交叉 录 目 标 做 平滑 。 该 研究 的 结论 是 : 尽管 本 质 上 目标 函数 和 
得 到 梯度 算法 相同 ， 但 对 于 使 用 稀 玻 网 格 的 大 词汇 量 连续 语音 识别 ， 实 现 全 序 
列 的 训练 要 比 小 任务 需要 更 多 的 工程 技巧 。Vesely' ”| 在 大 词汇 量 语 音 识别 
任务 的 全 序列 训练 DNN- HMM 实验 中 ， 也 给 出 了 同样 的 结论 。 但 是 ， 与 之 不 
同 的 启发 式 规则 52] 在 训练 中 却 相 当 有 效 。 另 外 ，Wiesler' "研究 了 训练 具有 
ZEIL H ts DNN 的 Hessian- free 优化 方法 ， 并 给 出 了 这 些 方法 的 经 验 性 性 质 。 
最 后 ，Dognin 和 Goel! 在 进行 序列 训练 DNN 时 ， 结 合 了 随机 均匀 梯度 和 
Hessian- free 优化 方法 ， 相 比 于 单独 的 Hessian- free 序列 训练 方法 ， 该 方法 成 功 
地 将 训练 收敛 时 间 减 少 一 半 。 

对 大 规模 DNN- HMM 系统 而 言 ， 无 论 是 采用 帧 级 还 是 序列 优化 目标 ， 为 
了 充分 利用 大 量 训练 数据 和 大 模型 ， 训 练 加 速 是 十 分 必要 的 。 除 上 述 方法 外 ， 
Dean 等 人 !% 提出 了 在 超大 词汇 量 语音 识别 中 使 用 异步 随机 梯度 下 降 (Asyn- 
chronous Gradient Descent, ASGD) 方法 、 自 适应 梯度 下 降 (Adaptive Gradient 
Descent, Adgrad) 和 大 规模 受 限 存储 BFGS (L-BFGS) 方法 。Sainath 在 文献 
[312] 中 ， 对 一 系列 加 速 训练 和 DNN 语音 识别 的 优化 方法 进行 了 综述 。 
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除了 上 述 侧 重 于 完全 有 监督 的 优化 ( 即 所 有 训练 数据 都 有 标注 ) 外 ， 也 
有 人 研究 DNN- HMM 语音 识别 系统 中 半 监 督 的 训练 方法 。Liao 等 人 在 文献 
[223] 中 报告 了 一 项 非常 有 挑战 的 研究 ， 在 YouTube 语音 上 使 用 半 监 督 方 法 
训练 DNN- HMM， 其 主要 技术 是 使 用 称 为 “置信 和 岛 (island of confidence)” 的 
启发 式 过 滤 方 法 选择 训练 片段 。 另 外 ，Vesely5 也 探索 了 DNN 的 半 监 督 训 
练 ， 使 用 自 训练 (self-training) 作为 句子 级 和 帧 级 置信 选择 的 基本 策略 。 由 混 
清 网 络 生成 每 帧 的 置信 和 度 进行 帧 级 选择 是 有 益 的 。Huang'" 1 汇报 了 半 监 督 训 
练 的 男 一 种 方法 ,使 用 多 系统 的 组 合 和 置信 度 重 新 校准 (recalibration ) 来 选 
择 训 练 数据 。 此 外 ，Thomas52 1 克服 了 在 一 系列 少 资源 情景 中 缺乏 声学 模型 所 
需 的 训练 数据 问题 。 他 们 采用 带 有 抄本 的 多 语种 数据 和 半 监 督 训 练 方 法 ， 训 练 
一 个 特征 提取 前 端 ， 用 于 后 续 语音 识别 任务 。 

最 后 ， 我 们 看 到 了 最 初 由 Hinton 等 人 "1 提出 的 正则 化 方法 “dropout” 在 
基于 深度 学 习 的 语音 识别 中 新 的 发 展 。 过 拟 合 在 DNN 训练 中 很 容易 出 现 ， 
DNN 的 多 层 激 励 也 易于 相互 适应 (co-adaptation) 去 拟 合 输入 声学 数据 。 
Dropout 是 限制 相互 适应 的 技术 ， 它 的 具体 操作 如 下 : 对 每 个 训练 实例 ， 每 个 
隐 层 单元 都 随机 地 以 一 定 概率 (如 p=0.5) 被 忽略 ， 随 后 除了 简单 的 缩放 
DNN 权重 外 (通过 因子 1 -p)， 解码 正常 完成 。 或 者 ，DNN 权 值 的 缩放 可 以 
在 训练 阶段 完成 (缩放 因子 1/ (1 -P) ) 。Dropout 正则 化 的 好 处 是 ， 训 练 DNN 
的 过 程 时 使 隐 层 单元 仅 受 自身 激励 影响 ， 而 不 依赖 其 他 的 单元 ， 并 提供 了 一 种 在 
不 同 网 络 中 求 其 平均 模型 的 方法 。 这 些 优点 在 训练 数据 有 限时 或 者 当 DNN 网 络 
大 小 比 训练 数据 要 大 的 多 时 最 为 明显 。Dahl 等 人 5 将 Dropout 策略 和 ReLU 单元 
一 起 使 用 ， 但 仅 在 全 连接 的 DNN 的 一 些 高 层 中 应 用 dropout, Seltzer 和 Yu ™ H 
dropout 应 用 到 噪声 鲁 棒 的 语音 识别 。Deng AS MAW HAF, H4 dropout 
应 用 到 卷 积 神经 网 络 的 所 有 层 ， 包 括 高 层 的 全 连接 层 、 低 层 局 部 连接 的 卷 积 层 
和 池 化 (pooling) 层 ， 并 发 现在 卷 积 神经 网 络 中 dropout 率 需 要 大 幅 降 低 。 

后 续 关 于 dropout 的 应 用 包括 Miao 和 Metze A TE! ; 他 们 在 少 资 源 数 
据 稀 疏 条 件 下 使 用 DNN 进行 语音 识别 。 最 近 ，Sainath $ A 将 dropout 和 一 
些 新 技术 相 结合 ， 在 一 系列 大 词汇 量 语音 识别 任务 上 获得 了 领先 的 结果 。 这 些 
新 技术 包括 : 深度 CNN Hessian-free 序列 化 学 习 、ReLU 单元 、fMLLR 和 滤波 
器 组 特征 等 。 

下 面 对 本 小 节 做 简短 总 结 。2010 年 左右 ， 人 研究 者 对 深度 学 习 在 语音 分 析 
和 识别 领域 的 成 功 进行 了 报告 ， 自 此 以 后 ， 深 度 学 习 又 取得 了 长 足 的 发 展 。 我 
们 看 到 ， 在 这 个 主题 上 的 研究 工作 和 论文 发 表 的 爆炸 性 增长 ， 看 到 它 在 语音 识 
别 领 域 激动 人 心 的 巨大 成 功 。 我 们 预计 基于 深度 学 习 的 语音 识别 研究 继续 不 断 
壮大 ， 至 少 在 近期 将 会 快速 成 长 。 很 公平 的 说 ， 基 于 深度 学 习 的 大 规模 语音 识 
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别 的 不 断 成 功 (截止 到 ASRU-2013 会 议 召 开 ) 是 促使 深度 学 习 方法 应 用 到 其 
他 领域 的 关键 因素 ， 我 们 会 接着 在 第 8 ~11 章 继续 讨论 深度 学 习 在 其 他 人 研究 领 
域 的 成 功 应 用 。 





7.2 语音 合成 


除了 语音 识别 之 外 ， 深 度 学 习 的 影响 已 经 延伸 到 语音 合成 领域 ， 目 的 在 于 
克服 统计 参数 合成 (statistical parametric synthesis) 中 基于 高 斯 - 隐 马 尔 可 夫 模 
型 和 基于 决策 树 (decision tree) 的 模型 聚 类 等 传统 方法 上 的 缺点 。 语 音 合 成 
的 目的 是 直接 从 文本 (或 其 他 信息 ) 生成 语音 。2013 年 5 A, ICASSP 会 议 上 
第 一 次 出 现 了 相关 的 论文 。 为 了 改善 基于 隐 马 尔 可 夫 模 型 并 建立 在 “ 浅 层 ” 
声学 模型 上 的 统计 参数 语音 合成 系统 ， 这 次 会 议 汇报 了 四 种 不 同 的 基于 深度 学 
习 的 语音 合成 方法 。 我 们 首先 介绍 相关 的 背景 知识 ， 再 对 这 些 方 法 进行 简要 
回顾 。 

统计 参数 语音 合成 出 现在 20 世纪 90 年 代 中 期 ， 是 现在 语音 合成 领域 的 主 
导 技 术 。 文 献 【364] 是 近年 来 工作 的 一 个 概述 。 这 种 方法 使 用 一 组 随机 生成 
式 的 声学 模型 来 对 文本 和 对 应 的 声学 实现 之 间 的 关系 进行 建 模 。 最 受 欢迎 的 生 
成 式 声学 模型 是 基于 决策 树 聚 类 与 上 下 文 相 关 的 隐 马 尔 可 夫 模 型 ， 并 假设 
HMM 每 一 状态 的 输出 满足 高 斯 分 布 。 在 基于 HMM 的 语音 合成 系统 中 ,使 用 
一 个 统一 的 上 下 文 相关 的 HMM 框架 来 对 频谱 、 激 励 以 及 时 长 等 声学 特征 同时 
进行 建 模 。 在 合成 阶段 ， 给 定 一 个 待 合成 文本 ， 文 本 分 析 模 块 先 从 中 提取 上 下 
文 相关 的 要 素 序列 ， 包 括 语音 学 、 韵 律 音韵 学 、 语 言 和 语法 上 的 描述 信息 。 给 
定 上 下 文 相关 的 要 素 序 列 后 ， 就 会 生成 一 个 与 输入 文本 对 应 的 句子 级 上 下 文 相 
关 的 隐 马 尔 可 夫 模 型 ， 模 型 参数 是 由 遍历 决策 树 确定 的 。 声 学 特征 的 预测 ， 需 
要 在 静态 特征 和 动态 特征 的 约束 下 从 句子 级 的 HMM 中 最 大 化 它们 的 输出 概 
R, 最后， 将 预测 出 的 声学 模型 送 入 到 一 个 波形 合成 模块 来 重 构 出 语音 波形 。 
多 年 来 ， 这 种 标准 方法 生成 的 语音 与 自然 语音 相 比 往往 是 沉 问 且 模糊 不 清 的 ， 
这 可 能 是 由 于 基于 浅 层 结构 的 HMM 对 声学 模型 建 模 不 充分 导致 的 ， 近 来 的 一 
些 研 究 尝试 通过 深度 学 习 方 法 来 克服 这 些 不 足 。 深 度 学 习 技 术 的 一 个 重要 优势 
在 于 ， 它 们 通过 使 用 一 个 生成 式 (如 3.2 节 中 讨论 的 RBM 和 DBN) 或 区 分 性 
(如 3.3 节 中 讨论 的 DNN) 模型 框架 ， 使 其 对 高 维 随机 向 量 单元 之 间 的 内 在 联 
系 或 者 映射 关系 产生 强大 的 表征 能 力 。 因 此 ， 人 们 和 希望 使 用 深度 学 习 技 术 来 元 
服 语音 合成 使 用 传统 浅 层 模型 在 声学 建 模 方面 的 限制 。 

最 近 ， 研 究 者 们 进行 了 一 系列 探究 ， 使 用 深度 学 习 方 法 来 克服 上 述 方法 的 
限制 ， 这 一 思路 来 自 于 人 类 语言 产生 的 内 在 分 层 过 程 以 及 本 章 前 面 介绍 的 深度 
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学 习 方 法 在 语音 识别 上 的 成 功 应 用 。 在 凌 震 华 等 人 :3 的 研究 中 ，RBM 和 
DBN 作为 生成 式 模 型 奉 代 了 传统 高 斯 模型 ， 在 合成 语音 的 主观 和 客观 评测 中 
都 取得 了 显著 的 提升 。 在 文献 [190] 中 ，DBN 作为 生成 式 模型 来 表征 语言 特 
征 与 声学 特征 的 联合 分 布 ， 决 策 树 和 高 斯 模型 被 DBN 所 替代 。 这 种 方法 与 使 
用 DBN 生成 数字 图 像 (digit images) 的 方法 很 相似 。 语 音 合 成 中 通过 使 用 较 
大 的 音节 规模 单元 来 解决 语音 中 特有 的 时 间 序 列 建 模 问题 ( 图像 中 不 存在 这 
样 的 问题 ) 。 另 一 方面 ， 与 前 面 使 用 的 生成 式 深 度 模 型 ( RBM 和 DBN) 相 比 ， 
文献 [435] 中 的 研究 利用 深度 神经 网 络 (DNN) 的 区 分 性 模型 来 表征 给 定语 
言 特征 时 声学 特征 的 条 件 概 率 分 布 。 在 文献 [115] P, DNN 的 区 分 性 模型 作 
为 一 种 特征 提取 器 从 原始 声学 模型 中 提取 高 层 结构 的 信息 。 在 完整 的 语音 合成 
系统 中 ， 这 样 的 DNN 特征 用 作 第 二 阶段 中 从 上 下 文 特征 中 预测 韵律 轮廓 目标 
的 输入 。 

深度 学 习 在 语音 合成 的 应 用 才刚 刚 开 始 ， 在 不 久 的 将 来 会 有 更 多 关于 该 领 
域 的 研究 工作 。 


7.3 音频 和 音乐 处 理 




























































































与 语音 识别 类 似 ， 最 近 在 音频 和 音乐 处 理 领 域 ， 深 度 学 习 也 成 为 一 个 很 重 
要 的 研究 内 容 。2009 年 见证 了 深度 学 习 在 语音 识别 上 的 第 一 次 重大 事件 ， 接 
下 来 也 有 一 系列 相关 活动 ， 包 括 2012 年 ICASSP 会 议 上 对 深度 学 习 进 行 的 全 面 
概述 ， 以 及 同年 在 IEEE 音频 、 语 音 与 语言 处 理会 刊 (语音 识别 最 重要 的 刊 
W) 上 的 专刊 。 而 次 度 学 习 在 音频 和 音乐 上 的 第 一 个 重大 事件 是 在 2014 年 IC- 
ASSP 会 议 上 的 特别 专题 ， 题 目 为 “用 于 音乐 的 深度 学 习 (Deep Learning for 
Music ) ” [4] 。 

在 音频 和 语音 处 理 领 域 ， 受 深度 学 习 影 响 的 研究 主要 包括 音乐 信号 处 理 和 
音乐 信息 检索 “7343331 。 在 这 两 个 方面 ， 深 度 学 习 面 临 着 一 些 独特 的 
挑战 。 音 乐音 频 信号 不 是 按照 真实 时 间 (real time) 组 织 的 ， 而 是 以 音乐 时 间 
(musical time) 组 织 的 时 间 序 列 ， 它 随 着 韵律 和 情感 的 变化 而 变化 。 测 量 的 信 
号 通常 是 多 个 声音 的 混合 ， 这 些 声 音 在 时 间 上 是 同步 的 ， 在 频率 上 是 交 革 的 ， 
是 短 时 和 长 时 相关 的 混合 。 影 响 因 素 包 括 音乐 的 传统 、 风 格 、 作 曲 以 及 演绎 。 
音乐 音频 信号 的 高 复杂 度 和 多 样 性 使 得 其 信号 表征 问题 能 够 很 好 地 使 用 深度 学 
习 这 一 感知 和 生理 驱动 的 技术 所 提供 的 高 度 抽象 (high levels of abstraction) 。 

Lee 等 人 中 在 早期 的 音频 信号 工作 中 ,用 RBM 组 成 卷 积 结构 来 构建 
DBN。 在 时 间 上 通过 隐 节 点 共享 权重 形成 卷 积 层 ， 来 检测 时 间 不 变性 (invari- 
ant) 特征 。 然 后 进行 最 大 池 化 (max- pooling ) 处 理 ， 获 得 短 时 隐 节 点 领域 内 
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的 最 大 激励 ， 产 生 一 些 短 时 不 变 特征 。 这 种 卷 积 DBN 应 用 在 音频 和 语音 的 很 
多 任务 上 ,包括 音 乐 艺 术 家 和 流派 的 分 类 、 说 话 人 识别 、 说 话 人 性 别 分 类 以 及 
音素 分 类 ， 都 取得 了 不 错 的 效果 。 

最 近 RNN 也 被 用 于 音乐 处 理 上 ， 使 用 ReLU 隐藏 节点 代 蔡 传统 的 非 线性 
逻辑 回归 和 双 曲 正切 函数 袜 %41。 在 7.2 节 中 ，ReLU 节点 通过 计算 y = max 
(x, 0) 产生 更 稀 玻 的 梯度 ， 这 样 在 训练 中 不 易 发 散 (RNN 训练 的 常见 问题 ) 
而 且 速 度 很 快 。RNN 主要 应 用 于 音乐 中 和 弦 的 自动 识别 任务 上 ， 这 类 研究 在 
音乐 信息 检索 领域 里 很 受 欢迎 。 使 用 RNN 结构 的 目的 是 利用 它 强大 的 动态 系 
统 建 模 能 力 。RNN 通过 隐 层 中 自 连接 的 神经 元 来 形成 内 部 记忆 ， 这 个 性 质 使 
得 RNN 可 以 很 好 地 模拟 时 间 序 列 ， 比 如 说 频谱 的 帧 序列 或 者 和 弱 进 行 中 的 和 
弦 标 注 (chord labels in a harmonic progression) 。 充 分 训练 之 后 ，RNN 就 可 以 在 
给 定 前 面 时 刻 结束 的 条 件 下 来 预测 下 一 时 刻 的 输出 。 实 验 结果 表明 ， 基 于 
RNN 的 自动 和 弦 识 别 系 统 和 现 有 的 最 好 方法 水 平 相当 :后 。RNN 可 以 学 习 基 本 
的 音乐 属性 ， 包 括 瞬 时 连续 性 、 谐 波 成 分 和 瞬时 动态 性 等 。 无 论 音 频 信号 是 含 
糊 不 清 的 、 带 噪 的 还 是 很 难 区 分 的 ，RNN 都 可 以 有 效 地 检测 出 大 多 数 音 乐 的 
和 弱 序 列 。 

Humphrey 等 人 ”1 在 最 近 的 一 篇 综述 论文 中 ， 对 基于 内 容 的 音乐 信息 学 
(music informatics) 做 了 详细 地 分 析 ， 特 别 研究 了 该 领域 进展 缓慢 的 原因 。 得 
出 的 结论 是 : 手工 特征 设计 是 一 种 次 优 解 并 且 无 法 持久 ， 浅 层 结构 的 能 力 本 质 
上 是 有 限 的 ， 而 且 ， 短 时 分 析 并 不 能 对 音乐 中 有 意义 的 结构 特征 进行 编码 。 这 
些 结论 推动 了 深度 学 习 方 法 在 自动 特征 学 习 中 的 应 用 。 采 用 特征 学 习 方 法 ， 使 
得 最 优化 音乐 检索 系统 的 内 部 特征 表示 成 为 可 能 ， 甚 至 可 以 自动 发 现 特征 ， 这 
是 因为 深层 结构 具有 很 适用 于 音乐 层级 特性 的 特点 。 最 后 ， 我 们 回顾 一 下 van 
den Oord 等 人 2 的 最 新 工作 : 用 深度 学 习 方法 实现 基于 内 容 的 音乐 推荐 。 自 
动 音乐 推荐 技术 在 实际 应 用 中 变 得 日 渐 重 要 和 实用 。 大 多 数 推荐 系统 依赖 于 协 
同 过 滤 ， 这 种 算法 受 限 于 冷 启动 问题 ， 在 没有 数据 可 用 时 就 会 失败 。 这 样 ， 协 
同 过 滤 就 不 能 有 效 地 推荐 最 新 的 或 一 些 冷门 歌曲 。 而 深度 学 习 使 用 潜在 因素 模 
型 进行 推荐 ， 如 无 法 从 可 用 数据 中 获得 潜在 因素 时 ， 就 从 音乐 音频 中 对 其 预 
测 。 一 种 传统 的 用 词 袋 (bag- of- words ) 表征 音频 信号 的 方法 与 深度 CNN 进行 
了 严格 对 比 ， 实 验 结果 表明 ， 使 用 深层 CNN 的 潜在 因素 模型 产生 的 推荐 内 容 
更 为 合理 。 这 个 研究 证 明了 卷 积 神经 网 络 和 丰富 的 音频 特征 相 结合 的 方法 可 以 
在 基于 内 容 的 音乐 推荐 中 获得 更 好 的 结果 。 

与 语音 识别 和 语音 合成 一 样 ， 不 久 以 后 ,深度 学 习 在 音乐 和 音频 信号 处 理 
领域 将 产生 更 多 的 成 果 。 





































































































在 语言 模型 和 自然 语言 处 理 中 的 
相关 应 用 
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近年 来 ， 在 信号 处 理 领 域 中 ， 语 


= 


AN 














文档 和 文本 处 理 的 研究 越 来 越 受 欢 


迎 ， 被 TERE 信号 处 理学 会 的 语音 和 语言 处 理 技术 委员 会 指定 为 重点 研究 领域 





之 一 。 在 该 领域 中 ,深度 学 习 最 开始 应 用 在 语 
上 ， 其 目标 是 为 任意 的 单词 或 者 其 他 语言 符号 (例如 ， 字 母 、 
提供 概率 。 自 然 语言 处 理 (NLP) 和 计算 语言 学 也 处 理 词语 或 者 其 他 
翻译 、 句 法 分 析 、 文 本 分 类 等 ) ， 








的 序列 问题 ， 但 是 任务 更 加 多 样 化 〈 例 如 : 
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模型 (Language Model, LM) 
字符 、 音 素 等 ) 
Vs he EI 


wats 





它们 的 重点 不 是 为 语言 符号 提供 概率 。 这 两 者 的 联系 是 ， 语 言 模型 往往 是 自然 
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STE. 
Wa 


处 理 系 统 中 很 有 用 的 组 成 部 分 。 在 自然 语言 处 理 领 域 的 应 用 是 目前 深度 学 


习 人 研究 中 最 活路 的 部 分 ， 并且 NLP 人 研究 者 们 认为 ， 深度 学 习 是 一 个 很 有 前 途 
WATT], PRT, FEA LVR BEE J A NLP 研究 者 之 间 的 交集 远 没有 在 语音 或 
者 视觉 应 用 领域 大 。 这 可 能 是 因为 相 比 该 领域 内 最 先进 的 方法 ， 深 度 学 习 在 语 


音 或 视觉 目标 识别 上 的 优势 还 没 在 NLP 应 用 上 体现 得 那么 明显 


8.1 语言 模型 





语言 模型 (LM) 是 很 多 应 用 成 功 的 关键 ， 这 
索 、 统 计 机 器 翻译 以 及 NLP 的 其 他 任务 。 语 
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些 应 用 包括 语音 识别 、 文 本 
言 模型 中 传统 参数 佑 计 技 


A 





术 都 基于 NN 元 文法 计数 的 方法 。 尽 管 我 们 已 经 知道 N 元 文法 的 缺点 ， 但 由 于 
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许多 领 


域 的 研究 者 们 专注 于 此 ， 因 此 N 元 文法 依然 是 主流 技术 。 神 经 网 络 和 

















深度 学 习 方法 的 出 现 显 著 降 低 了 语言 模型 的 困惑 度 perplexity) ， 而 困惑 度 是 


应 用 在 一 些 基 准 任务 上 ”2 的 一 种 常用 的 〈 不 是 最 终 的 ) 度量 语 


能 的 方法 。 
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模型 性 


在 讨论 基于 神经 网 络 的 语言 模型 之 前 ， 需 要 特别 指出 的 一 点 是 ， 在 构建 深 











度 递 归结 构 的 语 
程 用 作 贝 叶 


言 模型 中 使 用 了 分 层 贝 叶 























斯 先 验 ”” 。 特 别 
斯 先 验 ， 构 建 了 一 个 深层 (WE) 的 概率 生成 式 模型 。 通 过 


也 ，Pitman- Yor 过 
结合 
aA 





目 然 语 言 的 宪 律 (power-law) 分 布 ， 为 语言 模型 的 平滑 提供 了 一 种 原则 性 的 
方法 。 已 经 在 第 3 章 中 指出 ， 这 种 先 验 知识 能 入 在 生成 式 概率 模型 构建 上 比 在 


基于 区 分 性 神经 网 路 的 模型 构建 上 更 容易 实现 ， 而 在 降低 语 
模型 获得 的 结果 好 。 下 面 ， 我 们 来 讨论 这 


到 的 结果 远 没有 基于 神经 网 络 的 语言 


个 问题 。 
在 语 


这 种 方法 被 称 为 神经 网 络 语言 模型 ( NNLM ) 。 


一 


A 


模型 困惑 度 上 得 


言 模型 中 使 用 〈 浅 层 ) 前 馈 神 经 网 络 已 经 有 很 长 的 历史 了 [92 ， 


最 近 ， 文 献 [8] 在 语言 模型 中 





使 用 了 DNN, 语言 模型 抽取 自然 语言 中 的 词语 序列 分 布 ， 并 用 其 显著 统计 特 
性 的 函数 来 表示 。 给 定 前 面 出 现 的 词 ， 它 可 以 计算 下 一 个 词 的 概率 预测 。 为 了 
降低 维度 灾难 (curse of dimensionality) 的 影响 ，NNLM 利用 神经 网 络 的 能 











s 在 语言 模型 和 自然 语言 处 理 中 的 相关 应 用 


学 习 词 的 分 布 式 表示 。 早 期 的 NNLM 使 用 前 馈 神 经 网 络 结构 ， 按 照 下 面 的 步 
DRIFT ITS. N 元 文法 NNLM 使 用 先前 固定 长 度 的 N -1 个 词 作 为 输入 ， 每 个 
Te) (EASE a P/V 标注 进行 编码 , V 是 词典 的 大 小 。 使 用 在 历史 信息 不 同 
位 置 共享 的 投影 矩阵 ， 词 的 14V 正 交 表示 线性 地 投影 到 一 个 更 低 的 维度 空间 。 
这 种 词语 的 连续 空间 、 分 布 式 表示 的 方法 叫做 “ 词 租 入 ” (word embedding) , 
这 与 常见 的 符号 或 者 局 部 化 表示 很 不 同 '*”1。 通 过 投影 层 后 ， 使 用 一 个 非 线 
性 激活 函数 的 隐 层 ， 非 线性 函数 可 以 是 双 曲 正切 函数 或 者 逻辑 S 型 函数 。 隐 层 
之 后 是 神经 网 络 的 输出 层 ， 输 出 节点 的 数量 与 完整 词 表 的 大 小 相同 。 神 经 网 络 
训练 后 ， 输 出 层 的 激活 就 表示 元 文法 语言 模型 的 概率 分 布 。 

NNLM 较 传 统 的 基于 计数 的 w 元 文法 语言 模型 的 主要 优势 在 于 ， 历 史 信 息 
不 再 严格 的 是 先前 N -1 个 词 ， 而 是 整个 历史 信息 到 某 种 低 维 空间 上 的 投影 。 
这 降低 了 待 训练 模型 的 参数 数量 ， 并 对 相似 的 词 序 列 历史 进行 自动 聚 类 。 与 基 
于 类 别 (class-based) AY 元 文法 语言 模型 相 比 所 不 同 的 是 ，NNLM 将 所 有 的 
词 投影 到 低 维 空间 ， 这 样 就 可 以 得 到 词 之 间 更 多 维度 上 的 相似 度 。 男 一 方面 ， 
NNLM 与 NN 元 文法 相 比 ， 计 算 复 杂 度 更 大 。 

下 面 我 们 从 分 布 式 表示 的 观点 分 析 NNLM 所 具有 的 优势 。 符 号 的 分 布 式 表 
示 是 描述 符号 含义 的 特征 向 量 ， 向 量 中 的 每 一 个 元 素 都 参与 了 符号 含义 的 表 
示 。 有 了 NNLM 之 后 ， 研 究 者 们 就 可 以 将 研究 重点 放 在 发 现 有 意义 的 、 连 续 实 
值 的 特征 向 量 的 学 习 算法 上 。 基 本 的 想法 是 ， 用 一 个 连续 实 值 的 特征 表示 来 关 
联 词典 里 的 每 一 个 词 ， 这 在 研究 领域 中 被 称 为 “ 词 能 入 ”。 这 样 ， 每 一 个 单词 
对 应 于 特征 空间 里 的 一 个 点 。 我 们 可 以 认为 空间 里 的 每 一 维 对 应 于 词 的 一 个 语 
义 或 语法 特征 。 我 们 期 望 的 是 ， 功 能 相似 的 词语 在 特征 空间 中 离 得 更 近 ， 至 少 
在 某 些 维 上 是 这 样 。 这 样 词 序列 就 可 以 转化 为 学 习 到 的 特征 向 量 序列 。 神 经 网 
络 学 习 的 是 特征 向 量 序列 到 序列 中 下 一 个 词 的 概率 分 布 的 映射 关系 。LM 的 分 
布 式 表示 方法 的 优点 在 于 其 推广 能 力 ， 它 可 以 对 不 在 训练 词 序列 集合 中 的 序列 
生成 性 能 很 好 的 分 布 式 特征 表示 。 这 是 因为 神经 网 络 能 将 相似 的 输入 映射 到 相 
似 的 输出 上 ， 具 有 相似 特征 词 序列 的 预测 映射 到 相似 的 预测 上 。 

E NNLM 的 思想 已 经 在 很 多 研究 中 得 以 运用 ， 其 中 一 些 涉及 了 深层 结 
构 。NNLM 中 分 层 结构 输出 的 做 法 是 为 了 处 理 大 词汇 表 '“”i。 在 文献 [252] 
中 ,语言 模型 使 用 了 有 瞬时 因子 化 RBM, 与 传统 NN 元 文法 模型 不 同 ， 因 子 化 
RBM 不 仅 将 上 下 文 的 词 进行 分 布 式 表示 ， 而 且 对 待 预 测 词 进 行 了 同样 的 处 理 ， 
文献 [253] 将 此 方法 推广 到 了 更 深层 结构 。 随 后 在 NNLM 上 使 用 “深层 ” 结 
构 的 工作 包括 (205, 207, 208, 245, 247, 248], ， 例 如 ，Le 等 人 1 使 用 结 
构 化 的 输出 层 (Structured Output Layer, SOUL) 描述 NNLM, 语言 模型 的 人 处理 
深度 集中 在 神经 网 络 的 输出 表示 上 。 图 8. 1 是 SOUL- NNML 的 结构 示意 图 ,在 



















































































ARYA: 方法 及 应用 


神经 网 络 的 输出 层 上 使 用 了 层级 结构 ， 神 经 网 络 的 其 余部 分 与 传统 NNLM 具有 
相同 的 结构 。 网 络 输出 词 表 的 层级 结构 是 聚 类 树 的 形式 ， 如 图 8. 1 右 图 所 示 ， 
每 个 词 只 属于 其 中 的 一 类 ， 位 于 决策 树 的 一 个 叶子 节点 上 。 层 级 结构 的 优点 在 
于 SOUL- NNLM 可 以 使 用 完整 的 大 词 表 训练 NNLM， 这 与 传统 NNLM 中 只 能 对 
少量 词汇 进行 有 效 训 练 相 比 是 一 个 很 大 优势 。 
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8.1 神经 网 络 输出 层 中 具有 分 层 结构 的 SOUL-NNLM 架构 
(参考 文献 [207] ，@ IEEE) 


























图 中 词语 翻译 对 照 表 
Shared projection space 共享 映射 空间 
Short list 短 列 
Top classes THA 
Sub- class layer FAIR 
Word layer 词 层 
The associated clustering tree 关联 聚 类 树 





另外 一 个 使 用 基于 神经 网 络 语言 模型 的 例子 参见 文献 [247，248，245 ] ， 
它们 使 用 了 递归 神经 网 络 (RNN) 去 构建 大 规模 的 语言 模型 ， 称 为 RNNLM。 
对 于 语言 模型 来 说 ， 前 馈 结 构 和 递归 结构 的 主要 区 别 是 表示 词 历史 的 方法 不 
同 。 对 于 前 馈 NNLM 来 说 ， 历 史 词 仍然 只 是 前 面 知 干 个 词 。 而 对 于 RNNLM 来 
说 ， 在 训练 过 程 中 可 以 从 数据 中 学 习 到 历史 词 的 有 效 表示 形式 。RNN 的 隐 层 
表示 前 面 所 有 的 词 历史 ， 而 不 仅仅 是 前 面 V -1 个 词 ， 这 样 从 理论 上 讲 模型 可 
以 表征 长 时 上 下 文 模式 。RNNLM 更 重要 的 一 个 优点 是 能 够 表征 词 序 列 中 更 高 
级 的 模式 ， 例 如 ， 依 赖 于 在 历史 中 可 变 位 置 出 现 的 词语 ， 这 些 模式 就 可 以 使 用 
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递归 结构 更 有 效 地 进行 编码 。 也 就 是 说 ，RNNLM 可 以 简单 地 在 隐 层 状态 上 记 
忆 一 些 特定 的 词 ， 而 前 馈 NNLM 需要 使 用 一 些 参数 来 表示 词 在 历史 词汇 中 的 每 
一 个 特定 位 置 。 

RNNLM 使 用 沿 时 间 反 向 传播 算法 进行 训练 "的 ; ， 图 8. 2 所 示 为 在 训练 过 程 
中 RNN 是 怎样 展开 为 一 个 深层 前 馈 网 络 的 〈 在 时 间 上 回 退 三 个 时 间 单 位 ) 。 
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8.2 在 训练 过 程 中 RNN 展开 为 一 个 深层 前 馈 网 络 
(参考 文献 [245] 中 图 3.2) 


在 RNN 的 训练 中 ， 通 过 截断 增长 的 梯度 ，RNNLM 训练 获得 了 稳定 性 和 快 
速 收敛 性 。 人 们 也 开发 了 RNNLM 的 自 适 应 算法 ， 根 据 训练 数据 的 相关 性 进行 
排序 并 且 在 处 理 测试 数据 时 训练 模型 。 文 献 [247，248，245] 中 的 经 验 性 比 
较 都 表明 ，RNNLM 与 其 他 基于 N 元 文法 的 流行 方法 相 比 ， 在 困惑 度 上 具有 更 


M er renan 


好 的 效果 。 

文献 [153, 357] 中 的 RNNLM 使 用 的 单位 是 字 (character) 而 不 是 词 。 
展示 了 很 多 有 趣 的 性 质 ， 比 如 预测 长 时 依赖 〈 例 如 在 段落 中 打 左 右 引 号 ) 。 然 
而 ， 以 字 为 单位 而 不 以 词 为 单位 在 实际 的 应 用 中 的 效果 还 不 是 很 明确 ， 因 为 在 
自然 语言 处 理 中 ， 词 仍然 是 一 种 强力 的 表示 。 在 语言 模型 中 ， 将 词语 变 为 字符 
可 能 会 限制 大 多 数 实 际 应 用 场景 ， 训 练 也 会 变 得 困难 。 目 前 ， 词 级 模型 仍然 保 
持 着 优势 。 

在 最 近 的 工作 中 ，Mnih 和 Teh'” 以 及 Mnih 和 Kavukcuoglu'* 为 NNLM 
开发 了 一 种 快速 简单 的 训练 算法 。 尽 管 NNLM 极 具 优越 的 性 能 ， 但 由 于 训练 时 
间 比 较 长 ， 因 此 它 不 如 标准 N 元 文法 语言 模型 的 使 用 广泛 。 噪 声 对 比 佑 计 
( Noise- Contrastive Estimation, NCE) 算法 "可 以 让 NNLM 训练 速度 更 快 ， 而 
且 时 间 复 杂 度 与 词汇 量 的 大 小 无 关 ; 它 在 NNLM 的 输出 层 中 使 用 了 一 个 扁平 而 
非 树 的 结构 。NCE 的 思想 是 : 使 用 非 线性 回归 来 区 分 观测 数据 和 人 为 噪声 。 
也 就 是 说 ， 为 了 佑 计 观 测 数据 密度 模型 里 的 参数 ， 要 去 学 习 区 分 数据 分 布 的 样 
本 和 已 知 噪声 分 布 的 样本 。 作 为 一 种 重要 的 特例 ，NCE 对 于 非 规范 的 分 布 非 
WAR 〈( 比 如， 不 受 分 母 中 分 配 函 数 的 影响 )。 为 了 高 效 地 将 NCE 应 用 在 
NNLM 的 训练 中 ，Mnih 和 Heh 以 及 Mnih 和 Kavukcuoglu 等 人 首次 将 学 习 问 题 
公式 化 表示 ， 在 判 分 函数 中 将 目标 函数 表示 为 词 的 分 布 ， 这 样 NNLM 就 可 以 看 
作 是 一 种 使 用 判 分 函数 量化 历史 词 和 下 一 个 候选 词 兼 容 性 的 方法 。 训 练 NNLM 
的 目标 函数 就 变 成 了 判 分 函数 的 指数 函数 ， 用 一 个 常量 对 所 有 可 能 的 词 进行 归 
一 化 。 已 经 证 实 ， 通 过 移 除 计算 繁琐 的 归 一 化 因子 ，NCE 可 以 将 NNLM 的 训 
练 过 程 加 快 一 个 数量 级 。 

最 近 与 NCE 相似 的 方法 也 用 在 文献 [250] 中 ， 这 种 方法 叫做 负 采 样 
(negative sampling) 。 它 应 用 在 NNLM 的 简化 版 本 中 ， 是 为 了 构建 词 租 入 而 非 
计算 词 序列 的 概率 。 词 嵌入 在 NLP 应 用 中 是 一 个 重要 的 内 容 ， 我 们 接 下 来 将 
详细 讨论 。 












































8.2 自然 语言 处 理 








多 年 以 来 ， 机 器 学 习 一 直 都 是 自然 语言 处 理 (NLP) 的 主要 工具 。 然 而 在 
NLP 中 ， 机 器 学 习 的 使 用 大 多 数 都 仅 限于 从 文本 数据 中 人 为 设计 的 表示 (和 
特征 ) 权重 的 数值 优化 。 深 度 学 习 或 表征 学 习 的 目的 是 自动 从 原始 文本 中 学 
习 能 广泛 适用 于 各 种 NLP 任务 的 特征 或 表征 。 

最 近 ， 基 于 深度 学 习 方 法 的 神经 网 络 在 很 多 NLP 任务 上 都 取得 了 不 错 的 
效果 ， 比 如 语言 模型 、 机 器 翻译 、 词 性 标注 、 命 名 实体 识别 、 情 感 分 析 和 复述 
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检测 (paraphrase detection) 。 深 度 学 习 方 法 最 吸引 人 的 方面 是 它们 能 够 出 色 地 
完成 这 些 任务 ， 而 不 用 额外 的 人 为 设计 的 资源 和 耗 时 的 特征 工程 。 为 此 ， 深 度 
学 习 开 发 和 使 用 了 一 个 重要 的 概念 一 一 “ 艇 和 信 ” (embedding) ， 指 用 连续 实 值 
向 量 来 表示 自然 语言 文本 中 词 级、 短语 级 甚至 是 句子 级 的 符号 信息 。 

早期 的 一 些 工作 '%%* | 已 经 凸显 了 词 租 入 的 重要 性 ， 虽然 这 起 先 只 是 文 
献 [26] 中 语言 模型 的 副产品 。 原 始 的 基于 符号 的 词 表 示 可 以 通过 神经 网 络 
从 高 维 的 14V 编码 稀 蚊 向 量 (例如 , 了 是 词 表 的 大 小 或 者 其 二 次 方 甚至 三 次 
方 ) 转化 为 低 维 实 值 向 量 ， 由 随后 的 神经 网 络 层 进行 处 理 。 连 续 空 间 表示 词 
或 者 短语 的 主要 优点 是 其 分 布 特性 ， 这 可 以 对 相同 含义 的 词语 表示 进行 共享 或 
聚 类 。 这 种 共享 是 不 可 能 在 用 高 维 1XV 编码 来 表示 词语 的 原始 符号 空间 进行 
的 。 词 的 上 下 文 作为 神经 网 络 中 的 学 习 信 号 ， 并 使 用 无 监督 学 习 方 法 进行 训 
练 。Socher 等 人 -91 提供 了 一 些 不 错 的 教程 ， 解 释 了 神经 网 络 是 如 何 训练 来 
得 到 词 谍 入 的 。 最 近 一 些 研 究 工 作 提出 了 训练 词 伐 入 的 新 方法 ， 它 结合 了 局 部 
或 全 局 的 上 下 文 文档 ， 可 以 更 好 地 获取 词 的 语义 信息 ; 同时 通过 学 习 每 个 词 的 
不 同 圣 和 方式， 很 好 地 解释 了 同音 异 义 和 一 词 多 义 现象 。 文 献 [245] 同样 证 
明了 RNN 可 以 在 词 息 和 的 训练 中 获得 更 好 的 性 能 。NNLM 主要 目的 是 为 了 预 
测 上 下 文中 的 下 一 个 词 ， 并 产生 了 词 舱 入 这 样 的 副产品 ， 这 是 一 种 获得 词 租 入 
更 简单 的 方法 ， 而 且 不 用 进行 词 预 测 。Collobert and Weston! “等 人 的 研究 证 
实 ， 和 NNLM 中 通常 需要 的 规模 庞大 的 输出 节点 不 同 ， 训 练 词 角 入 的 神经 网 络 
需要 的 输出 节点 要 少 得 多 。 

在 词 舱 入 早期 的 工作 中 ，Collobert 和 Weston 等 人 将 卷 积 神经 网 络 作 为 一 
个 通用 模型 同时 去 解决 一 系列 经 典 的 问题 ， 包 括 词 性 标注 、 断 句 、 命 名 实体 识 
别 、 语 义 角色 识别 以 及 相似 词 识别 。 在 最 近 的 文献 [61] 中 ， 基 于 深层 递归 
卷 积 结构 ， 人 研究 者 提出 了 一 种 更 快 、 区 分 性 更 强 的 方法 来 做 语义 分 析 。Col- 
lobert 等 人 :和 对 统一 神经 网 络 结构 和 相关 的 深度 学 习 算法 在 解决 “从 零 开 始 做 
NLP” 的 问题 上 的 应 用 做 了 详细 的 综述 ， 据 弃 了 传统 NLP 的 特征 提取 方法 。 这 
一 系列 工作 的 目的 是 尽量 避免 与 特定 任务 相关 的 人 工 特征 工程 ， 同 时 提供 自动 
从 深度 学 习 中 获取 灵活 统一 的 特征 ， 而 这 些 特征 适用 于 所 有 的 自然 语言 处 理 任 
务 。 文 献 [63] 中 汇报 的 系统 ， 在 多 种 NLP 任务 中 ， 可 以 从 大 量 无 标注 的 训 
练 数据 中 学 习 到 内 在 表征 或 词 租 入 。 

Mikolov 等 人 最 近 的 工作 简化 了 8. 1 节 中 NNLM 获取 词 和 入 的 过 程 。NNLM 
可 以 通过 两 个 步骤 进行 训练 。 首 先 使 用 一 个 简单 模型 学 习 到 连续 词 向 量 ， 模 型 
消除 了 神经 网 络 上 层 的 非 线性 误差 ， 所 有 词 共享 投影 层 。 其 次 ， 在 词 向 量 之 上 
训练 一 个 NN 元 文法 NNLM。 这 样 ， 去 掉 NNLM 的 第 二 步 后 ， 使 用 一 个 简单 的 模 
型 去 学 习 词 租 人 和信， 这 样 就 可 以 使 用 大 量 的 数据 了 。 因 此 产生 了 一 个 称 为 连续 词 
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A (Continuous Bag- Of- Words，CBOW) 的 词 舱 入 模 型 ， 如 图 8. 3 左 所 示 。 
由 于 在 语言 模型 中 目标 不 再 是 计算 词 序 列 的 概率 ， 词 舰 和 人 系统 可 以 更 有 效 ， 不 
仅仅 能 够 基于 上 下 文 预测 当前 词 ， 而 且 能 够 进行 反 演 预测 (inverse predic- 
tion) ， 这 称 为 跳跃 文法 模型 (skip- gramn) ， 如 图 8.3 右 所 示 。 作 者 后 续 的 工 
Pe?) 中， 将 跳跃 文法 模型 的 词 岩 和 人 系统 扩展 成 一 种 更 快 的 学 习 方 法 ， 称 为 负 
采样 (negative sampling) ， 与 8. 1 节 中 讨论 的 NCE 相似 。 





INPUT PROJECTION OUTPUT INPUT PROJECTION OUTPUT 
w(t-2) w(t-2) 
w(t-t) wtt-1) 
SUM 
wit) wit) 
wit+1) w(t+1) 
w(t+2) wlt+2) 
CBOW Skip-gram 


图 8.3 左 图 为 CBOW 架构 ; 右 图 为 Skip- gram 构架 
(参考 文献 [246], @ICLR) 














中 词语 翻译 对 照 表 
INPUT 输入 
PROJECTION 映射 
OUTPUT 输出 
CBOW 连续 词 袋 模型 
Skip- gram 跳跃 文法 模型 











与 此 同时 ，Mnih 和 Kavukcuoglu 等 人 :入 证 实 了 轻 量 级 词 炭 入 NCE 训练 是 
一 种 更 高 效 、 词 表征 质量 更 好 的 训练 方法 ， 这 与 8. 1 节 中 Mnih 和 Teh 等 人 提 
出 的 轻 量 语言 模型 有 些 相 似 。 因 此 ， 过 去 依赖 大 量 硬件 和 软件 架构 才能 得 到 的 
结果 ， 现 在 可 以 在 单 台 桌 面 计算 机 上 用 很 少 的 编程 工作 和 更 少 的 时 间 和 数据 来 
获得 。 最 近 的 工作 也 表明 ， 在 表征 学 习 上 ，NCE 只 需 五 个 噪声 样本 就 足够 了 ， 
比 语言 模型 中 要 求 的 少 很 多 。 作 者 也 用 了 一 种 “ 反 演 语言 模型 ” (inversed lan- 
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guage model) ÆI WIA, SS 7E SCH [250] 中 跳跃 文法 模型 使 用 的 方法 
相似 。 

Huang 等 人 意识 到 早期 词 佣 人 工作 的 局 限 性 ， 即 这 些 模 型 只 是 使 用 了 局 部 
上 上 下文， 而且 每 个 词 采用 一 种 表示 。 为 此 ， 他 们 扩展 了 局 部 上 下 文 模型 ， 使 得 
模型 可 以 结合 整 句 或 者 整个 文档 的 全 局 上 下 文 。 这 些 扩展 模型 可 以 通过 学 习 每 
个 词 的 多 种 舱 入 方式 ， 解 决 同音 异 义 和 一 词 多 义 问 题 ， 如 图 8.4 所 示 。 该 研究 
组 早期 的 工作 "1 使 用 局 部 上 下 文 的 递归 神经 网 络 去 建立 一 个 深层 结构 。 尽 管 
缺少 全 局 上 下 文 ， 基 于 从 原始 特征 学 习 到 的 语义 信息 ， 这 个 网 络 仍然 具有 合并 
自然 语言 的 词语 的 能 力 。 这 种 深度 学 习 的 方法 在 自然 语言 句法 分 析 应 用 上 的 效 
果 很 好 。 在 自然 场景 图 像 解 析 任 务 上 ， 这 种 方法 的 效果 也 取得 了 成 功 。 其 他 相 
关 的 研究 ， 比 如 在 复述 检测 (paraphrase detection ) 5941 和 从 文本 预测 情感 分 布 
中 也 使 用 了 类 似 的 递归 深层 结构 "1。 
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图 8.4 E T P RIRA, ， 使 用 了 递归 神经 网 络 ， 同 时 考虑 了 局 部 
和 全 局 上 和 下文。 全 局 上 下 文 从 文档 中 提取 出 来 ， 并 放 到 全 局 语义 向 量 中 ， 作 为 
原始 局 部 上 下 文 词 嵌入 模型 输入 的 一 部 分 。 本 图 来 自 于 文献 【169] 中 图 1。 
(参考 文献 [169] @ ACL) 



































中 词语 翻译 对 照 表 

Local context 局 部 上 下 文 

Global context 全 局 上 下 文 
score 分 数 
document 文档 
sum 求 和 

global semantic vector 全 局 语义 向 量 
weighted average 加 权 平 均 
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现在 我 们 讨论 深度 学 习 方法 (包括 神经 网 络 结构 和 词 般 入) 应 用 在 实际 
NLP 任务 上 的 工作 。 机 器 翻译 是 研究 人 员 多 年 以 来 一 直 探 索 的 一 个 典型 的 NLP 
任务 ， 多 年 的 研究 集中 在 浅 层 统计 模型 上 。 文 献 [320] 的 工作 或 许 是 第 一 个 
全 面 的 基于 词 舱 入 的 神经 网 络 语言 模型 的 成 功 应 用 ， 该 工作 针对 大 型 机 器 翻译 
任务 ， 可 以 在 GPU 上 进行 训练 ， 解决 了 计算 复杂 度 高 的 问题 ， 可 以 在 20 小 时 
内 训练 5 亿 个 词 。 该 工作 获得 了 很 好 的 结果 : 词 舰 入 神经 网 络 语言 模型 与 最 好 
的 回 退 语言 模型 (back-off LM) 相 比 ， 困 惑 度 从 71 下降 到 60， 对 应 的 BLEU 
分 数 提高 了 1. 8% 。 

文献 [121, 123] 是 将 深度 学 习 方 法 应 用 在 机 器 翻译 上 的 最 近 的 研究 工 
作 。 在 该 工作 中 ， 短 语 翻 译 模块 (而 不 是 机 器 翻译 系统 中 的 语言 模型 模块 ) 
被 具有 语义 词 能 入 的 神经 网 络 模型 所 苦 换 。 图 8. 5 为 这 种 方法 中 的 结构 ， 成 对 
的 源 短语 (标注 为 1) 和 目标 短语 (标注 为 e) 被 映射 到 低 维 潜在 语义 空间 的 
连续 实 值 向 量 表示 上 (标注 为 两 个 y 向 量 ) 。 翻 译 分 数 可 以 通过 在 这 个 新 的 空 
间 中 的 计算 向 量 对 的 距离 获得 。 通 过 两 个 深度 神经 网 络 进行 映射 ， 网 络 权 重 可 
以 从 平行 训练 语 料 训练 得 到 。 学 习 的 目标 是 直接 最 大 化 端 对 端的 机 器 翻译 质 
量 。 在 两 个 标准 的 Europarl 翻译 任务 上 (英语 -法 语 和 德语 -英语 ) 的 实验 评测 
结果 表明 ， 新 的 基于 语义 短语 的 翻译 模型 大 大 的 提高 了 基于 短语 的 统计 机 器 翻 
译 系统 的 性 能 ， 在 BLEU 上 提高 了 1% 。 
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图 8.5 





图 8.5 为 文献 [122] 中 的 机 融 翻 译 系统 示意 图 。 源 〈 标 注 为 屹 和 目标 
(标注 为 e) 平行 短语 被 映射 为 连续 实 值 向 量 表示 〈 标 注 为 两 个 向 量 y) 。 翻 译 
分 数 通过 在 这 个 连续 空间 上 的 向 量 距 离 来 计算 。 通 过 两 个 深度 神经 网 络 〈 标 
注 为 两 个 箭头 ) 进行 映射 ， 网 络 权重 可 以 从 平行 训练 语 料 训练 得 到 。 
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图 中 词语 翻译 对 照 表 

Target phrase 目标 短语 

Source phase 源 短语 
Semantic representation of target phase 目标 短语 的 语义 表示 
Semantic representation of source phase 源 短语 的 语义 表示 

Translation score as dot product Re ps i 
翻译 分 数 作为 语义 空间 中 特征 向 量 的 内 积 

of feature vector in the semantic space 





Schwenk'*” | 提出 了 另外 一 种 和 上 述 方 法 相关 的 机 器 翻译 方法 。 在 该 方法 
中 ， 基 于 短语 的 机 器 翻译 系统 中 的 翻译 模型 概率 估计 通过 神经 网 络 进 行 计算 。 
短语 对 的 翻译 概率 可 以 通过 神经 网 络 生 成 的 连续 空间 表示 学 习 得 到 。 该 方法 做 
了 一 个 简化 : 一 个 短语 或 句子 的 翻译 概率 被 分 解 成 N 元 文法 语言 模型 中 N 元 
文法 概率 的 乘积 。 相 比 之 下 ，Gao""” 等 人 的 方法 则 不 使 用 原始 语言 和 目标 
翻译 语言 短语 间 的 联合 表示 。 

文献 [249] 提出 了 另外 一 种 基于 深度 学 习 的 机 需 翻 译 方法 。 在 其 他 方法 
中 ， 一 种 语言 的 语料库 中 的 词 与 同一 语料库 另外 一 种 语言 的 词 相 比 ， 双 语 数据 
中 具有 相似 统计 特征 的 词 和 短语 认为 是 对 等 的 。 而 文献 [249] 提出 了 一 种 新 
的 方法 ， 可 以 自动 生成 从 一 种 语言 转换 成 男 外 一 种 语言 的 词典 和 短语 列表 。 它 
不 依赖 于 不 同 语言 相同 文档 的 语 料 ， 相 反 ， 它 用 数据 挖掘 技术 去 建 模 源 语言 的 
结构 ， 然 后 与 目标 语言 的 结构 进行 比较 。 通 过 学 习 大 规模 单 语 数据 的 语言 结构 
对 缺失 单词 和 短语 进行 翻译 ， 然 后 把 他 们 映射 到 少量 双语 数据 语言 之 间 。 这 是 
基于 前 面 讨论 的 基于 向 量 的 词 做 入 ， 它 能 学 到 源 和 目标 语言 向 量 空间 之 间 的 一 
个 线性 映射 关系 。 

文献 [111] 是 早期 应 用 基于 DBN 的 深度 学 习 技 术 去 解决 机 器 音译 
(transliteration) 问题 的 研究 ， 这 是 一 个 比 机 器 翻译 简单 得 多 的 任务 。 这 种 深层 
结构 及 其 学 习 应 该 可 以 推广 到 更 困难 的 机 器 翻译 问题 上 ,但 是 目前 还 没有 此 类 
后 续 的 工作 。 作 为 男 外 一 个 早期 的 NLP 应 用 ，Sarikaya 等 人 中 应 用 DNN ( 论 
文中 称 作 DBN) 去 处 理 基 于 自然 语言 的 呼叫 路 由 (call- routing) 任务 。DNN 
使 用 无 监督 学 习 方 法 发 现 多 层 的 特征 ， 然 后 用 来 最 大 化 区 分 性 。 与 随机 初始 化 
权重 的 神经 网 络 相 比 ， 无 监督 特征 使 得 DBN 很 少 出 现 过 拟 合 ， 无 监督 学 习 可 
以 使 多 层 神 经 网 络 的 训练 更 容易 。 研 究 表明 ， 与 其 他 广泛 应 用 的 学 习 技 术 
(RKRN F Boosting HJATA) 相 比 ，DBN 可 以 获得 更 好 的 分 类 结果 。 

深度 学 习 方 法 在 NLP 中 最 有 趣 的 应 用 之 一 是 知识 库 (本 体 ) 补 全 
(knowleage based (ontology) completion) ， 该 任务 在 问答 (question- answering ) 
和 其 他 NLP 应 用 中 起 着 举足轻重 的 作用 。 文 献 [37] 是 这 方面 早期 的 工作 ， 
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它 引 入 了 自动 学 习 知 识 库 结构 化 分 布 式 构 入 (structured distributed embeddings) 
的 方法 。 连 续 值 向 量 空间 的 表示 是 紧凑 的 ， 并且 可 以 从 大 量 实体 和 关系 数据 中 
有 效 学 习 到 。 它 使 用 了 一 种 专门 的 神经 网 络 结构 ， 即 一 种 生成 式 “ 连 接 ” (Si- 
amese) 网 络 的 推广 。 接 下 来 的 工作 "集中 在 多 关系 数据 的 学 习 中 ， 提 出 了 一 
种 语义 匹配 能 量 模型 ， 可 以 同时 学 习 实 体 和 关系 共同 的 向 量 表示 。 文 献 
[340] 中 使 用 了 另外 一 种 方法 ， 基 于 神经 张 量 网 络 (neural tensor network) , 
解决 关系 分 类 任务 中 的 大 型 联合 知识 图 谱 的 推理 问题 。 知 识 图 谱 表 示 为 两 个 实体 
之 间 的 三 元 组 关系 ， 在 这 一 基础 上 ， 作 者 提出 了 一 种 适合 在 这 些 关 系 上 做 推断 的 
神经 网 络 结构 。 他 们 提出 的 是 一 种 神经 张 量 网 络 ， 只 有 一 层 。 网 络 用 固定 维度 的 
向 量 表示 实体 ， 可 以 通过 平均 预 训 练 的 词 嵌 和 向量 获 得 。 图 8.6 是 神经 张 量 网 络 
的 图 例 ， 用 虚线 框 表示 两 个 张 量 模型 。 文 献 [340] 的 实验 结果 表明 ， 这 种 张 量 
模型 可 以 有 效 的 区 分 WordNet 和 FreeBase 中 一 些 不 可 见 (unseen) 的 关系 。 
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图 8.6 
图 8.6 为 文献 [340] 中 的 神经 张 量 网 络 ， 两 种 关系 表示 为 两 个 张 量 层 。 


张 量 层 标记 为 WW ; 网络 包含 双 线 性 张 量 层 ， 直 接 与 两 个 实体 向 量 (标记 为 
ej，e ) 相关 联 。 一 个 虚线 框 表示 一 个 张 量 层 。( 参 考 文献 [340], @ NIPS) 

















中 词语 翻译 对 照 表 
Neural Tensor Layer 神经 张 量 层 
Linear Layer 线 型 层 
Slices of Tensor Layer 张 量 层 切 片 
Standard Layer 标准 层 
Bias 偏 置 
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最 后 我 们 要 介绍 的 是 深度 学 习 在 NLP 上 另外 一 个 成 功 的 应 用 : Socher 提 
出 的 将 递归 生成 模型 应 用 于 情感 分 析 "“1。 在 这 里 ， 情 感 分 析 是 指 通过 一 个 算 
法 从 输入 文本 信息 中 推断 积极 或 者 消极 的 情绪 。 正 如 我 们 本 章 之 前 讨论 的 ， 由 
神经 网 络 获得 的 语义 空间 中 的 词 钥 入 很 8 用 ,但 是 很 难 用 一 种 有 原则 的 方法 来 
表达 长 短语 的 含义 。 人 情感 分 析 的 输入 通常 是 很 多 词 和 短语 ， 骨 入 模型 需要 组 合 
(compositionality) 属性 。 为 了 做 到 这 一 点 ，Socher | 等 人 提出 递归 神经 张 量 
网 络 ， 每 一 层 的 建立 与 文献 [340] 中 描述 的 神经 张 量 网 络 模型 一 样 ， 如 图 
8.6 所 示 。 整 个 网 络 具 有 组 合 属性 的 递归 的 构建 ， 依 据 了 文献 【344] 中 介绍 
的 常规 非 张 量 网 络 。 在 一 个 精心 设计 的 情感 分 析 数 据 库 上 进行 训练 后 ， 递 归 神 
经 张 量 网 络 在 多 个 指标 上 都 比 以 前 的 方法 要 好 。 新 模型 将 目前 在 单 句 上 正 / 负 
情绪 分 类 的 精度 从 80% 提升 到 85. 4% 。 对 所 有 短语 预测 的 精细 粒度 的 情感 标 
Z (fine-grained accuracy labels) 正确 率 达 到 了 80.7% ， 比 特征 袋 (bag-of- 
features) 基线 系统 提高 了 9.7% 。 
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9.1 信息 检索 简介 


言 息 检索 (Information Retrieval, IR) 是 指 用 户 向 包含 了 很 多 文档 的 计算 
机 系统 输入 一 条 查询 ( query) ， 系 统 返 回 相关 文档 的 集合 。 我 们 把 信息 需求 的 
正规 描述 称 为 查询 ， 就 像 搜索 引擎 中 的 搜索 字 串 。 在 信息 检索 中 ， 一 次 查询 并 
不 是 匹配 到 集合 中 的 单一 文档 ， 而 是 根据 不 同 的 相关 度 匹 配 到 许多 文档 。 

一 个 文档 ， 有 时 称 之 为 对 象 ， 不仅 包括 了 文本 文档 ， 还 包括 图 片 、 音 频 
(音乐 或 语音 ) 或 者 视频 。 文 档 是 包含 了 信息 的 实体 ， 并 作为 数据 库 中 的 一 个 
实体 。 在 本 章 中 ,我们 将 对 象限 制 为 文本 文档 。 用 户 查询 与 储存 在 数据 库 中 的 
文档 进行 匹配 。 文 档 本 身 并 不 直接 保存 在 信息 检索 系统 中 ， 它 们 通常 在 系统 中 
用 元 数据 (metadata) 的 形式 表示 。 典 型 的 信息 检索 系统 计算 每 个 文档 对 查询 
匹配 程度 的 分 数 ， 然 后 根据 分 数 进 行 排序 ， 排 名 靠 前 的 文档 会 展示 给 用 户 。 如 
果 用 户 想 要 修订 查询 ， 上 述 这 个 过 程 会 只 代 下 去 。 

如 文献 [236] 所 述 ， 通 常 的 信息 检索 方法 可 以 作 以 下 分 类 : 

(1) 布尔 检索 : 一 个 文档 是 否 匹 配 一 个 查询 。 

(2) 代数 方法 检索 : 用 模型 把 文档 和 查询 表示 为 向 量 、 和 矩阵 或 元 组 。 查 
询 向 量 和 文档 向 量 的 相似 度 可 以 表示 为 一 个 标量 。 对 于 一 个 查询 ， 根 据 相 似 度 
产生 一 个 排序 的 文档 列表 。 和 常用 的 模型 和 方法 包括 : 向 量 空间 模型 (vector 
space model) ， 基 于 主题 的 向 量 空间 模型 (topic- based vector space model) ， 扩 - 
展 的 布尔 模型 (extended boolean model) 和 潜在 语义 分 析 (latent semantic 
analysis ) 。 

(3) 概率 方法 检索 : 将 信息 检索 过 程 看 作 是 一 种 概率 推测 。 文 档 与 给 定 
查询 之 间 的 相似 度 通 过 概率 来 表示 ， 然 后 用 此 概率 值 来 对 文档 进行 排序 。 常 用 
的 模型 和 方法 包括 : 二 进 制 独立 模型 (binary independence model) ， 采 用 BM25 
相关 函数 的 概率 相关 模型 ， 具 有 不 确定 性 和 概率 的 语言 模型 推理 方法 (ht- 
tp: //en. wikipedia. org/wiki/Uncertain _ inference) 和 潜在 狄 利克 雷 分 配 
(latent Dirichlet allocation) 。 

(4) 基于 特征 方法 检索 : 在 这 类 方法 中 ,文档 可 以 看 作 特 征 函 数值 的 向 
量 。 使 用 “学 习 排 序 ” (leaming to rank) 的 方法 ， 通 过 组 合 这 些 特征 得 到 一 
个 相关 性 分 数 ， 特 征 函 数 可 以 是 文档 和 查询 的 任意 函数 ， 因 此 可 以 容易 地 将 基 
于 特征 的 方法 和 几乎 任何 其 他 检索 模型 结合 起 来 ， 它 不 过 被 当成 了 另外 一 种 
特征 。 

关于 信息 检索 方面 的 深度 学 习 应 用 大 多 是 最 近 才 提出 的 ， 基 于 目前 的 文 
献 ， 这 些 方 法 大 多 是 基于 特征 的 。 深 度 网 络 主要 用 来 为 后 续 文 档 排序 阶段 提供 
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语义 特征 。 我 们 将 会 在 这 一 章 的 剩余 部 分 里 回顾 最 近 文 献 中 的 几 个 研究 工作 。 


9.2 用 基于 深度 自 编码 器 的 语义 哈 希 方法 对 文档 进行 索引 
和 检索 


我 们 在 这 里 讨论 的 “语义 哈 希 ”方法 应 用 在 文档 索引 和 检索 的 论文 发 表 
在 文献 [159] 和 [314] 中 。 采 用 基于 前 向 传播 的 近似 算法 ， 深 度 置信 网 络 
的 最 后 一 层 的 隐 变 量 不 但 易于 推断 ， 而 且 比 起 广泛 使 用 在 信息 检索 中 的 潜在 语 
义 分 析 和 传统 TF-IDF 方法 ， 它 能 根据 字 频 特征 (word- count features) 给 每 个 
文档 一 种 更 好 的 表示 。 通 过 深度 自 编码 器 生成 的 紧 致 码 ， 可 以 使 原本 语义 相近 
的 文档 在 物理 位 置 上 靠近 。 当 文档 被 映射 到 内 存 地 址 上 时 ,文档 检索 的 速度 也 
随 之 加 快 。 这 种 通过 神经 网 络 将 字 频 向 量 映射 成 紧 致 码 的 方法 是 十 分 高 效 的 ， 
因为 在 网 络 的 编码 需 部 分 每 一 个 隐 层 中 ， 仅 做 一 次 矩阵 乘法 ， 然 后 做 Sigmoid 
PROT o 
在 文献 [165] 中 讨论 了 用 于 上 述 目的 的 一 个 深层 置信 网 络 生成 式 模型 。 
简单 地 说 ， 深 层 置 信 网 络 最 底层 代表 了 一 个 文档 的 字 频 向 量 ， 顶 层 代 表 了 这 个 
文档 学 习 得 到 的 二 进 制 码 〈 即 紧 致 码 ) 。 深 层 置信 网 络 的 顶部 两 层 是 无 向 连接 
的 ， 其 余 几 层 建 立 了 一 个 自 顶 至 下 的 有 向 贝 叶 斯 (或 称 置信 ) 网 络 。 这 个 深 
层 置 信 网 络 由 第 5 章 中 介绍 的 堆 匡 式 受 限 玻 尔 兹 曼 机 所 组 成 ， 产 生 了 一 个 前 向 
编码 网 络 ， 将 字 频 向 量 转化 成 紧 致 码 。 以 相反 的 顺序 组 成 这 些 玻 尔 兹 曼 机 ， 得 
到 解码 网 络 ， 将 紧 致 码 映射 重组 为 字 频 向 量 。 将 编码 器 和 解码 需 组 合 就 得 到 了 
为 文档 编码 和 序列 检索 服务 的 深度 自 编码 器 。 

深度 模型 训练 完 后 ， 检 索 程 序 将 每 个 查询 目标 在 带 有 效 值 的 模型 上 进行 前 
向 传递 ， 从 而 使 其 映射 成 为 一 个 128 位 的 二 进 制 码 ， 继 而 非常 高 效 地 计算 出 查 
询 目标 和 所 有 文档 (尤其 是 在 语义 空间 上 相似 的 “临近 ”文档 ) 的 128 位 二 
进 制 码 的 汉 明 距离 。 高 效 是 因为 在 喻 希 表 中 只 需 查 找 相 邻 的 位 问 量 。 与 这 里 所 
讨论 的 编码 文本 文档 用 于 信息 检索 的 同一 思想 ， 也 用 在 了 音频 文档 的 检索 和 语 
音 特征 的 编码 问题 上 。 这 些 问题 最 初 是 在 文献 [100] 中 提 到 的 ， 在 第 4 章 中 
已 经 详细 讨论 过 。 


9.3 文档 检索 中 的 深度 结构 语义 模型 
本 节 中 我 们 将 讨论 一 种 最 近 提 出 的 更 为 先进 的 方法 ， 它 基于 一 种 特殊 的 深 


度 结构 ， 用 于 大 规模 的 文档 检索 ( 网 络 搜索 ) ， 我 们 称 之 为 深度 结构 语义 模型 
或 深度 语义 相似 模型 (Deep Semantic Similarity Model，DSSM ) ， 发 表 于 文献 
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[172] 中 。 在 文献 [328] 中 ， 可 以 找到 该 模型 的 卷 积 版 本 ， 即 卷 积 深度 语义 
相似 模型 (CDSSM) 。 

利用 现代 搜索 引擎 对 网 页 文档 检测 主要 通过 文档 关键 词 与 查询 关键 词 匹配 
的 方法 进行 。 然 而 ， 一 个 概念 在 文档 或 查询 中 往往 因为 用 词 和 语言 风格 的 不 同 
而 导致 字 串 匹配 的 结果 不 准确 。 在 关键 字 匹 配 不 奏效 的 情况 下 ， 潜 在 语义 模型 
能 够 将 查询 匹配 到 语义 级 别 上 的 相关 文档 。 这 些 模型 把 出 现在 相似 语 境 下 的 不 
同 术 语 按 照 同 一 语义 簇 进行 分 类 ， 用 这 种 方法 解决 网 页 文档 和 查询 之 间 的 语言 
差异 。 因 此 ， 一 次 查询 和 某 个 文档 (在 低 维 语义 空间 分 别 用 两 个 向 量 来 表示 ) 
即使 不 包含 相同 的 术语 ， 也 可 能 具有 很 高 的 相似 度 。 人 们 提出 了 诸如 概率 潜在 
语义 模型 (probabilistic latent semantic model) 和 潜在 狄 利 克 雷 分 配 (latent 
Dirichlet allocation) 模型 的 概率 主题 模型 以 解决 上 述 部 分 语义 匹配 的 难题 。 然 
而 ， 这 些 模型 对 信息 检索 效果 的 改进 并 没 像 最 初期 望 的 那样 显著 。 主 要 因为 ; 
(1) 大 多 数 流行 的 潜在 语义 模型 都 是 基于 线性 映射 ， 无 法 有 效 地 建 模 具有 复 
杂 语 义 属性 的 文档 ; (2) 这 些 模型 通常 使 用 与 检索 任务 的 评测 标准 耦合 度 不 
高 的 目标 函数 ， 并 在 无 监督 的 方式 下 进行 训练 。 为 了 改进 信息 检索 中 的 语义 匹 
配 问题 ， 前 人 通过 两 方面 的 研究 来 扩展 上 述 潜 在 语义 模型 。 一 方面 是 前 面 9.1 
节 中 提 到 的 基于 深度 自 编码 器 :539 的 语义 哈 希 方法 。 在 此 方法 中 ， 虽 然 通过 
深度 学 习 方法 可 以 提取 出 隐 含 在 查询 目标 和 文档 中 的 分 层 语义 结构 ， 但 是 模型 
采用 的 深度 学 习 方 法 仍然 是 一 种 无 监督 学 习 方 法 ， 此 方法 的 模型 参数 优化 以 重 
建文 档 为 目的 ， 而 不 是 为 了 将 文档 在 给 定 查询 的 情况 下 依 相 关 性 进行 区 分 。 这 
导致 的 结果 是 ， 深 度 神 经 网 络 并 没有 比 基 于 关键 字 匹 配 的 信息 检索 基线 模型 好 
很 多 。 男 一 方面 的 研究 ， 称 为 点 击 数据 (click-through data) ， 利 用 包含 一 系列 
查询 和 对 应 的 浏览 过 (点 击 过 ) 的 文档 数据 来 进行 语义 建 模 ， 进 而 消除 查询 
和 网 页 文档 的 语言 差异 ”4 。 这 些 模型 以 适合 文档 排序 为 目标 ， 用 浏览 过 的 
数据 进行 训练 。 然 而 ， 这 些 基 于 浏览 数据 训练 出 的 模型 仍然 是 线性 的 ， 因 此 存 
在 表现 力 不 够 的 问题 。 所 以 要 获得 比 基 线 明显 好 的 性 能 ， 这 些 模型 需要 与 关键 
字 匹 配 模型 ( 比如 BM25 ) 进行 结合 才 行 。 

在 文献 [172] 中 提 到 的 DSSM 方法 目的 在 于 通过 结合 两 方面 的 工作 来 克 
服 它们 的 缺点 。DSSM 用 深度 神经 网 络 结构 来 捕捉 查询 目标 和 对 应 文档 的 复杂 
语义 属性 ， 并 将 一 个 文档 集合 与 给 定 的 查询 进行 排序 。 简 单 来 说 ， 非 线性 映射 
首先 将 查询 和 文档 映射 到 一 个 通用 语义 空间 (common semantic space) , 然后 
计算 文档 与 给 定 查询 在 这 个 语义 空间 里 对 应 向 量 之 间 的 余弦 相似 度 。 用 点 击 的 
数据 来 训练 深度 神经 网 络 ， 使 得 在 给 定 查 询 条 件 下 ， 对 应 点 击 过 的 文档 的 条 件 
似 然 达到 最 大 。 与 前 面 的 用 无 监督 方法 训练 的 潜在 语义 模型 不 同 ，DSSM 直接 
为 网 页 文档 的 排序 进行 优化 ， 因 此 可 以 得 到 更 好 的 性 能 。 此 外 ， 该 文献 还 提出 
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一 个 新 的 词 哈 希 (hashing) 方法 ， 用 于 在 网 页 搜索 应 用 中 处 理 大 量词 汇 问题 ， 
它 将 高 维 字 串 (high-dimensional term) 向 量 映射 到 低 维 N 阶 字 母 向 量 上 ， 而 
且 基 本 没有 信息 损失 。 


























Semantic feature 128 Y 
{Wa ba} 
300 
Multiple layers of 不 h 
5o (Wa b3} 
non-linear projections 
300 L 
L {Wa by} 
| 30k | 4 
7N 
W, (word hashing) 
Term vector 500k x 
Query/Document 


图 9.1 在 DSSM 结构 中 的 DNN 部 分 。 在 语义 空间 中 用 DNN 来 将 查询 
和 文档 的 高 维 稀疏 文本 特征 映射 到 低 维 密集 特征 。 
(参考 文献 [172] ，@ CIKM) 














图 中 词语 翻译 对 照 表 
Semantic feature 语义 特征 
Multiple layers of non-linear projections 多 层 非 线性 映射 
Word hashing 词 哈 希 
Term vector 术语 向 量 
Query/ Document 查询 /文档 





图 9. 1 展示 了 在 DSSM 结构 中 的 DNN 部 分 。 在 语义 空间 中 ， 用 DNN 将 高 
维 稀 下 文 本 特征 映射 到 低 维 密集 特征 上 。 第 一 个 隐 层 包含 30k 个 节点 ， 来 完成 
词 哈 希 过 程 。 文 本 哈 希 特征 通过 多 个 非 线 性 网 络 层 进行 映射 。 这 个 DNN 最 后 
一 层 的 网 络 激励 构成 了 语义 空间 的 特征 。 

为 了 解释 图 9. 1 中 DNN 每 层 的 计算 步 又 ， 我 们 定义 x 为 输入 向 量 ，y 为 输 
RE, L, i=l, =, N-1, 为 中 间 的 隐 层 ，W, 为 第 i 个 投影 矩阵 ，0, 为 第 :i 
个 偏 置 向 量 。 我 们 得 到 : 














l = Wy« 
1 =f(W,l,., +b;), i>l 
y =f (Waly, +n) 
SUH, tanh 函数 用 在 了 输出 层 和 第 /个 隐 层 上 ,， L, i=2, +, N-1, 
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=e 
f(x) =] te” 
查询 O 和 文档 D 的 语义 相关 度 分 数 用 如 下 的 余弦 距离 来 计算 


= Yo Yp 

lyo ll Iy» |l 
式 中 ，yo 和 yo 为 查询 和 文档 的 概念 向 量 。 在 网 络 搜索 时 ， 给 定 一 个 查询 ， 通 过 
文档 的 语义 相关 度 分 数 来 将 文档 排序 。 

图 9. 1 中 的 DNN 权重 值 WW 和 6, 的 学 习 是 文献 [172] 的 重要 贡献 。 当 DNN 
应 用 在 语音 识别 中 时 ， 标 注 的 训练 数据 是 比较 容易 找到 的 ， 然 而 在 DSSM 中 ， 
DNN 并 没有 这 样 明 确定 义 的 标注 信息 。 因 此 ， 为 了 用 浏览 过 的 网 络 查 询 记 录 
作为 训练 数据 来 训练 DSSM 中 DNN 的 权 值 ， 损 失 函 数 需 要 以 信息 检索 为 中 心 
进行 改造 ， 而 不 是 将 通常 的 交叉 信 或 均 方 误差 作为 训练 时 的 目标 函数 。 

浏览 过 的 日 志 记录 包括 查询 和 查询 对 应 的 文档 。 查 询 通 常 与 浏览 过 的 文档 
相关 度 更 高 ， 与 未 浏览 过 的 文档 较 低 ， 这 个 弱 监 督 信息 可 以 用 来 训练 DSSM。 
DSSM 中 权 值 矩阵 下 ,是 通过 最 大 化 给 定 查 询 所 对 应 的 已 浏览 文档 的 后 验 概率 得 
到 的 。 


R(Q, D)=cosine (yọ, yp) 








exp(yR(Q,D)) 
> exp(yR(O,D')) 
D'eD 


HH, R(Q, DAW 0 和 文档 D HE AKEDA y 为 一 个 保留 
(held- out) 数据 集 上 经 验 性 的 平滑 因子 ， 忆 为 待 排序 候选 文档 的 集合 。 理 论 上 ， 
D 应 包含 所 有 可 用 的 文档 ， 正 如 语音 识别 中 最 大 互信 息 的 训练 中 所 有 负 标 注 都 
应 被 考虑 到 一 样 '“1， 但 在 网 络 级 别 上 得 到 D 是 不 可 能 的 。 根 据 语 音 识 别 中 最 
小 分 类 错误 (MCE) 训练 中 的 惯例 下， 文献 [172] 中 描述 的 关于 实 
现 DSSM 学 习 方 法 使 用 了 负 标 注 的 子 集 。 换 句 话说， 对 于 每 对 查询 Q 和 对 应 的 
文档 D*， 通 过 D* 和 4 个 随机 选择 的 未 浏览 文档 来 估计 集合 D, 得 到 |D; 
False, 4|。 文 献 [172] 指出 ， 用 不 同 的 采样 策略 来 选择 未 标注 文档 没有 很 


P(D| Q)= 











大 的 差别 。 
通过 上 述 简化 ，DSSM 的 参数 以 最 大 化 给 定 查询 条 件 下 浏览 过 的 文档 的 似 
然 概 率 来 估计 得 到 。 


L(A)=log [| P(D*1Q) 
(Q,D*,D7) 
式 中 , 4 为 DSSM 中 DNN 权 值 {WW,} 的 参数 集合 。 如 图 9. 2 所 示 ， 整 个 DSSM 
的 结构 包含 了 多 个 DNN。 这 些 DNN 共享 相同 的 权 值 ， 但 输入 不 同 的 文档 (一 


个 正 相 关 和 多 个 负 相关 ) 来 训练 DSSM 的 参数 。 
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关于 DNN 中 文档 和 查询 权 值 


中 近似 损失 函数 梯度 计算 的 细 习 发 表 于 文献 [172] 中 ， 这 里 不 再 详 述 。 


Posterior probability 
computed by softmax 


Relevance measured 
by cosine similarity 
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图 9.2 文档 检索 中 DSSM 的 结构 (来 自 文献 [170， 





Dz 


171] ) 。 所 有 DNN 共享 权重 。 


n 个 文档 表示 用 随机 的 负 样 本 简化 训练 过 程 。( 参考 文献 [172], @CIKM) 


图 中 词语 翻译 对 照 表 


Posterior probability computed by softmax 


Softmax 计算 的 后 验 概率 





Relevance measured by cosine similarity 











余弦 相似 度 计算 的 相关 性 


























Semantic feature 语义 特征 
Multiple layers of non- linear projections 多 层 非 线性 映射 
Word hashing 词 哈 希 
Term vector 术语 向 量 


最 近 ， 前 文 所 述 的 DSSM 被 扩展 到 了 卷 积 形 
中 语义 相似 的 词 映射 到 卷 积 结构 的 上 下 文 特 征 空 
句子 的 整体 语义 通常 由 一 些 关 键 词 来 确定 ， 因 此 





式 ， 即 C- DSSM。 它 将 上 下 文 
间 中 相近 的 向 量 上 。 由 于 一 个 
C- DSSM 使 用 一 个 附加 的 最 大 

















池 化 (max pooling) 层 来 提取 最 显著 的 局 部 特 行 
Ja FFA 
间 (shared semantic space) 中 的 一 个 点 。 

图 9. 3 展示 了 C- DSSM 的 卷 积 神经 网 络 的 组 
长 为 3。C- DSSM 的 结构 与 图 9.2 中 DSSM 相似 ， 























， 从 而 形成 一 个 固定 长 度 的 全 


FE 向量。 该 向 量 输入 到 余下 的 非 线性 DNN 层 中 ,将 它 映 射 到 共享 语义 空 


成 成 分 ， 其 中 图 示 卷 积 层 的 窗 
不 同 点 仅 在 于 ，C- DSSM 用 人 带 


有 局 部 连接 的 捆绑 权 值 和 附加 最 大 池 化 层 (max pooling layer) 的 卷 积 神经 网 


络 代替 了 全 连接 的 DNN。 图 9.3 中 的 模型 部 分 包含 了 4 个 前 


Bat: (1) 词 喻 希 


层 ， 它 将 词 转换 到 3 阶 字 (letter-tri-gram) 向 量 ， 这 如 同 DSSM 中 的 方法 一 
样 ; (2) 卷 积 层 ， 它 为 每 个 上 下 文 窗口 提取 局 部 上 下 文 特征 ; (3) 最 大 池 化 
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层 , 它 提取 并 合并 局 部 显著 特 和 








N 





(4) 语义 层 ， 它 代表 


FE 向量 ; 
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输入 词 序列 的 高 级 语义 信息 。 
Semantic layer: y 
Affine projection matrix: Ws 


Max pooling layer: v 


Max pooling operation 


Convolutional layer: hę 


Convolution matrix: W, 


Word hashing layer: fe 
Word hashing matrix: W; 


Word sequence: x; <s> w1 


W2 Wr <s> 


图 9.3 C-DSSM 中 的 卷 积 神经 网 络 组 成 部 分 。 卷 积 层 的 窗 长 为 3。 
(参考 文献 [328], @ WWW) 



































中 词语 翻译 对 照 表 
Semantic layer 语义 层 
Affine projection matrix 仿 射 投影 矩阵 
Max pooling layer 最 大 池 化 
Max pooling operation 最 大 池 化 处 理 
Convolutional layer 卷 积 层 
Convolutional matrix 卷 积 矩 阵 
Word hashing layer 词 哈 希 层 
Word hashing matrix 词 哈 希 矩 阵 
Word sequence 词 序列 





C- DSSM 使 用 卷 积 结构 的 主要 动机 是 ， 它 可 以 将 变 长 词 序 列 映射 到 潜在 语 
义 空 间 中 的 一 个 低 维 向 量 上 ， 这 与 之 前 那些 模型 将 查询 和 文档 当 作 词 袋 (bag- 
of-words) 的 情况 是 不 一 样 的 ， 查 询 或 文档 在 C- DSSM 中 被 看 作 是 有 上 下 文 结 
构 的 词 序列 。 通 过 使 用 卷 积 结构 ， 首 先 对 N 阶 词 (n-gram) 级 别 上 的 局 部 上 





下 文 信息 进行 建 模 。 然 后 ， 局 部 显著 特 和 














F 被 组 合 起 来 用 于 构建 全 局 特 生 
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最 后 ， 词 序列 的 高 级 语义 信息 被 提取 出 来 组 成 全 局 向 量 。 和 DSSM 类 似 ，C- 


9 信息 检索 领域 中 的 应 用 





DSSM 也 在 浏览 的 数据 上 训练 ， 并 使 用 反 向 传播 算法 最 大 化 给 定 查询 条 件 下 的 
浏览 过 文档 的 条 件 似 然 值 。 


9.4 ”信息 检索 中 深度 堆 和 又 网 络 的 应 用 


第 6 音 中 讨论 的 深度 堆 琶 网 络 (DSN) 最 近 在 信息 检索 方面 也 进行 了 研究 
并 取得 了 有 意义 的 结果 。 实 验 结果 表明 ， 基 于 DSN 中 “相关 ”与 “不 相关 ” 
二 值 决策 计算 的 分 类 错误 率 ， 不 仅 与 DSN 的 训练 目标 高 度 相 关 ， 而 且 与 在 传 
统 信息 检索 质量 评估 中 广泛 使 用 的 归 一 化 衰减 累计 增益 (NDCG) 相关 。 但 
是 ， 这 种 相关 性 在 高 质量 的 信息 检索 (high IR quality) 任务 中 并 不 成 立 。 

如 第 6 音 所 述 ， 以 均 方 误 差 (MSE) 作为 DSN 训练 的 目标 ， 将 简化 DSN 
的 训练 ， 并 在 很 大 程度 上 促进 了 DSN 在 图 像 识 别 、 语 音 识 别 和 语音 理解 上 的 
成 功 应 用 。 均 方 误差 (MSE) 和 分 类 错误 率 (CER) 在 这 些 语音 和 图 像 应 用 
上 的 关联 性 很 强 。 然 而 ， 在 信息 检索 领域 中 ， 以 均 方 误差 (MSE) 作为 训练 目 
标 函 数 和 理想 目标 〈 例 如 归 一 化 衰减 累计 增益 NDCG) 之 间 的 差异 ， 远 比 上 述 
传统 分 类 任务 中 均 方 误差 (MSE) 和 理想 目标 (分 类 错误 率 CER) 之 间 的 差 
异 大 得 多 。 导 臻 差异 变 大 的 原因 很 多 ， 比 如 ， 用 NDCG 作为 理想 信息 检索 目标 
函数 时 ， 由 于 它 是 一 个 参数 高 度 不 平滑 函数 ， 这 与 传统 分 类 任务 中 的 均 方 误差 
和 分 类 错误 率 之 间 的 非 线性 关系 区 别 很 大 。 因 此 ， 我 们 感 兴趣 的 是 去 理解 ， 当 信 
息 检 索 中 的 相关 度 作为 DSN 的 预测 目标 时 ，NDCG 与 分 类 错误 或 者 MSE 之 间 的 
相关 性 如 何 ? 更 进一步 来 讲 ，DSN 在 学 习 上 的 进化 这 一 优点 能 否 被 应 用 到 在 信 
息 检 索 任 务 中 ， 从 而 提升 如 NDCG 之 类 的 信息 检索 指标 。 在 文献 [88] F, 我 
们 的 实验 结果 为 上 述 两 个 问题 提供 了 正面 的 回答 。 此 外 我 们 也 指出 ， 从 分 类 应 用 
到 信息 检索 应 用 时 ，DSN 的 学 习 算法 在 实施 时 需要 加 倍 关注 。 

文献 [88] 实验 中 的 信息 检索 任务 是 与 广告 部 署 相关 的 赞助 搜索 。 除 了 
原始 的 网 络 搜索 结果 ， 商 业 搜索 引擎 也 附加 了 与 赞助 商 相 关 的 搜索 结果 来 反馈 
用 户 的 查询 。 赞 助 搜 索 结果 从 一 个 汇集 了 广告 商 信息 的 数据 库 中 选择 合适 的 广 
告 商 ， 将 他 们 的 广告 投放 在 搜索 结果 页 面 上 。 给 出 一 个 查询 ， 搜 索引 擎 会 从 数 
据 库 中 检索 出 相关 的 广告 ， 然 后 排序 ， 并 把 它们 显示 在 搜索 结果 页 面 合适 的 位 
置 ， 比 如 在 搜索 结果 页 面 的 顶部 或 右边 。 查 找 一 个 查询 相关 的 广告 与 普通 的 网 
页 搜索 十 分 相似 。 举 例 来 说 ， 尽 管 文档 来 自 一 个 有 限 的 数据 库 ， 但 任务 仍 像 典 
型 的 搜索 排名 一 样 ， 以 预测 和 输入 查询 相关 的 文档 为 目标 。 这 个 实验 首次 将 基 
于 DSN 结构 的 深度 学 习 技 术 用 在 了 广告 相关 的 信息 检索 问题 上 。 实 验 得 到 的 
初步 结果 是 : 以 MSE DSN 的 训练 目标 函数 和 以 NDCG 为 信息 检索 质量 评估 
方法 ， 两 者 间 具 有 密切 的 相关 性 。 
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在 过 去 的 两 年 里 ， 深 度 学 习 技 术 在 计算 机 视觉 相关 领域 的 研究 中 ,尤其 是 
在 目标 识别 方面 取得 了 巨大 进展 ， 从 而 使 得 深度 学 习 在 该 领域 的 成 功 应 用 获得 
普遍 认可 。 这 也 是 继 语音 识别 领域 之 后 ， 深 度 学 习 技术 获得 成 功 应 用 的 第 二 个 
领域 ,而 有 关 语 音 识别 方面 的 内 容 我 们 此 前 在 第 2 章 和 第 7 章 已 经 讨论 过 。 

这 方面 ， 值 得 推荐 的 关于 深度 学 习 在 计算 机 视觉 方面 近期 研究 进展 的 综述 
已 收录 在 NIPS-2013 的 会 议 文献 指南 中 https: //nips. cc/Conferences/2013/ 
Program/event. php? ID =4170， 其 视频 资源 http : //research. microsoft. com/ 
apps/video/default. aspx? id =206976&l =i 和 PPT 资源 http: //cs. nyu. edu/ 
~ fergus/presentations/nips2013_ final. pdf。 在 CVPR-2012 的 会 议 文献 指南 中 
也 有 相关 主题 的 讨论 (http: //cs. nyu. edu/ ~ fergus/tutorials/deep_ learning 
_ evprl2) 。 本 章 接 下 来 所 涉及 的 一 些 内 容 和 评述 便 是 基于 上 述 会 议 文献 指南 
的 部 分 内 容 并 与 书 中 前 儿 个 章节 的 内 容 进 行 关联 。 此 外 ， 男 一 值得 推荐 的 参考 
文献 来 源 于 近期 一 篇 关于 深度 学 习 在 计算 机 视觉 中 应 用 的 博士 学 位 论文 。 

多 年 来 ， 计 算 机 视觉 中 的 目标 识别 任务 长 期 依赖 某 些 人 工 设计 的 特征 ， 例 
如 SIFT (Scale Invariant Feature Transform) 和 HOG (Histogram of Oriented Gra- 
dients) ， 这 点 同 语音 识别 领域 长 期 依赖 MFCC 和 PLP 特征 的 情况 非常 相似 。 然 
而 ,诸如 SIFT 和 HOG 的 此 类 特征 仅仅 是 对 图 像 中 低级 别 的 边缘 信息 进行 描述 
与 表征 。 若 要 描述 图 像 中 高 级 信息 例如 边缘 交叉 和 局 部 外 观 等 ， 此 类 特征 便 显 
得 力不从心 了 。 针 对 上 述 问题 ， 深 度 学 习 可 以 通过 无 监督 和 有 监督 的 学 习 方 法 
直接 从 数据 中 获得 层级 化 的 视觉 特征 ， 从 而 提供 一 套 更 为 有 效 的 解决 方案 。 在 
下 面 的 讨论 中 ， 我 们 将 多 种 应 用 于 计算 机 视觉 领域 中 的 深度 学 习 方法 分 为 两 
类 : (1) 无 监督 特征 学 习 ， 该 类 方法 通常 仅仅 将 深度 学 习 用 于 进行 特征 提取 ， 
而 后 获得 的 特征 会 被 直接 作为 一 些 简单 的 机 融 学 习 算法 的 数据 加 以 训练 以 实现 
分 类 等 任务 ; (2) 有 监督 的 特征 学 习 ， 当 获取 大 量 有 标签 训练 数据 成 为 可 能 
时 ， 此 类 方法 可 以 通过 首尾 相连 的 学 习 策 略 实 现 整体 系统 中 特征 提取 与 分 类 带 
组 件 更 新 的 联合 最 优化 ， 从 而 更 加 有 效 地 完成 复杂 的 分 类 、 识 别 等 任务 。 


10.1 监督 或 生成 特征 学 习 


当 有 标签 数据 相对 缺乏 时 ， 无 监督 学 习 算 法 可 以 体现 其 对 于 视觉 特征 层级 
结构 的 学 习 能 力 。 事 实 上 ， 基 于 有 监督 学 习 的 CNN 层级 化 结构 已 经 在 2012 年 
的 ImageNet 比赛 中 获得 巨大 成 功 ， 而 在 这 之 前 ， 计 算 机 视觉 领域 对 于 深度 学 
习 的 应 用 一 直 都 仅 限 于 以 无 监督 学 习 为 目的 的 特征 提取 。 最 早 提 出 并 证 明 可 将 
无 监督 深度 自 编 码 方法 应 用 于 DBN 模型 预 训练 的 是 Hinton 和 Salakhutdi- 
noy, ZARENA 60000 个 训练 样本 的 MNIST 数据 库 上 成 功 实现 了 图 像 
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的 识别 和 降 维 〈 编 码 ) 任务 。 (详情 及 分 析 请 参考 http: //yann. lecun. com/ 
exdb/mnist/!”*! ) 。 有 趣 的 是 ， 关 于 编码 效率 ， 基 于 自 编码 的 DBN''™! 相 比 于 传 
统 的 主 成 分 分 析 在 图 像 数据 上 的 性 能 提升 …"] 与 本 书 第 4 章 所 涉及 的 相 比 于 传 
统 矢量 量化 技术 在 语音 数据 上 的 提升 情况 非常 相似 。 此 外 ，Nair 和 Hinton’?! 
提出 了 一 个 改进 的 DBN,， 该 DBN 的 顶层 使 用 了 一 个 三 阶 的 玻 尔 效 曼 机 。 当 这 
种 DBN 应 用 于 NORB 数据 库 〈 一 个 三 维 目 标识 别 任 务 数 据 库 ) 上 时 ， 其 错误 
率 几 乎 下 降 到 了 目前 所 公布 的 最 低 错误 率 ， 这 再 次 表明 了 DBN 在 很 大 程度 上 
是 优 于 类 SVM 这 样 的 浅 层 模 型 的 。 随 后 ,文献 【358] 进一步 提出 了 两 种 提高 
DBN 鲁 棒 性 的 策略 。 首 先 ，DBN 第 一 层 的 稀疏 连接 被 用 来 作为 一 种 模型 正则 
化 的 手段 ; 接着 通过 一 种 基于 概率 的 降 噪 算法 来 加 以 实现 。 当 这 两 种 技术 同时 
作用 时 ， 可 以 有 效 提 高 当 遮 挡 和 随机 噪声 存在 时 图 像 识 别 的 鲁 棒 性 。 同 时 ， 
DBN 也 被 成 功 地 应 用 于 创建 以 检索 为 目的 的 图 像 含 义 表征 方面 1。 尤其 是 在 
大 规模 图 像 检 索 任务 中 ， 基 于 深度 学 习 的 方法 同样 获得 了 很 好 的 效果 。 此 外 ， 
使 用 时 序 化 条 件 DBN 来 进行 视频 序列 与 人 体 运动 合 成 的 相关 应 用 也 在 文献 
[361] 中 有 所 报道 。 其 中 谈 到 的 条 件 RBM 和 DBN 是 通过 将 RBM 和 DBN 的 权 
重 与 一 个 以 前 次 数据 处 理 为 条 件 的 定 宽 时 间 窗 相关 联 ， 这 类 时 序 DBN 及 相关 
的 递归 网 络 提供 了 一 种 计算 工具 使 得 将 DBN- HMM 模型 演化 为 更 加 高 效 的 
DBN 言语 生成 模型 成 为 可 能 ， 而 该 模型 集成 了 以 时 间 为 中 心 的 言语 生成 机 理 。 
正如 我 们 之 前 所 提 到 的 ， 基 于 深度 学 习 的 方法 种 类 很 多 ， 主 要 包括 层级 概率 模 
型 和 生成 式 模型 (神经 网 络 等 ) 。 随 机 前 馈 神 经 网 络 是 这 类 算法 中 开发 并 应 用 
于 面部 表情 数据 库 的 一 个 最 新 典 例 ， 该 模型 既 可 以 进行 高 效 的 学 习 又 可 以 在 输 
出 空间 产生 一 个 类 似 于 混合 高 斯 模型 的 多 模 分 布 ， 而 这 是 标准 的 、 确 定性 的 神 
AO 所 无 法 做 到 的 。 如 图 10. 1 所 示 ， 是 一 个 具有 四 个 隐 层 的 典型 的 随机 
前 向 神经 网 络 ， 该 网 络 混合 了 确定 和 随机 两 种 神经 元 ( 左 图 ) 来 实现 多 模 分 
布 ( 右 图 )。 这 种 随机 网 络 是 一 个 深层 的 有 向 图 模型 ， 其 产生 过 程 开始 于 输入 
x, 一 个 代表 人 脸 的 神经 元 ， 输 出 y 则 代表 面部 表情 。 在 面部 表情 分 类 实验 中 ， 
通过 将 基于 此 种 随机 网 络 的 无 监督 学 习 所 获得 的 隐 特 征 与 基于 图 像 像素 的 显 特 
征 加 以 结合 ， 可 以 获得 比 条 件 化 RBM/DBN 基线 分 类 器 更 高 的 准确 率 [261 。 

目前 ,无 监督 深度 特征 学 习 在 计算 机 视觉 领域 研究 中 最 值得 关注 的 研究 进 
展 ( 先 于 最 近 CNN 的 大 量 使 用 ) 也 许 是 文献 [200] 中 提出 的 一 个 结合 了 子 采 
样 和 局 部 对 比 度 归 一 化 的 九 层 局 部 相连 的 稀 玻 自 编 码 器 。 该 模型 拥有 多 达 10 
亿 个 连接 ， 并 且 在 含有 近 1 千 万 张 互 联网 的 图 像 的 数据 集 上 进行 训练 。 这 种 无 
监督 的 特征 学 习 模 型 ， 允 许 系统 在 无 需 判断 有 标签 训练 样本 是 否 含有 人 脸 的 情 
况 下 实现 人 脸 检测 。 而 且 ， 控 制 实 验 进一步 表明 ， 这 种 特征 检测 器 对 于 平移 、 
尺度 变化 和 平面 外 旋转 都 具有 很 好 的 鲁 棒 性 。 
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图 10.1 A: 典型 的 四 隐 层 随机 前 馈 神经 网 络 结构 。 右 : 该 网 络 产生 的 两 个 不 同 
模式 分 布 ， 并 在 给 定 原始 面部 x 后 所 得 到 的 代表 两 个 或 多 个 不 同 的 面部 表情 y 
(参考 文献 [359] ，@ NIPS) 
图 中 词语 翻译 对 照 表 

无 监督 深度 特征 学 习 在 计算 机 视觉 领域 中 男 一 类 比较 流行 的 研究 是 基于 深 
度 稀疏 编码 的 模型 ?1 。 相 比 于 利用 CNN 结构 进行 有 监督 的 特征 学 习 和 分 类 的 
方法 ， 此 类 深度 模型 可 以 在 ImageNet 数据 集 上 针对 目标 识别 任务 获得 更 高 的 
准确 率 从 而 代表 了 当前 该 领域 发 展 的 最 新 水 平 ， 而 具体 内 容 也 就 是 我 们 接 下 来 
所 要 讨论 的 。 


10.2 有 监督 特征 学 习 和 分 类 


深度 学 习 在 目标 识别 中 的 最 初 应 用 可 追溯 到 20 世纪 90 年 代 早 期 所 提出 的 
卷 积 神经 网 络 (CNN ) ， 详 情 请 参考 综述 [212 ] 。 而 基于 CNN 结构 的 有 监督 
特征 学 习 模式 获得 广泛 关注 则 开始 于 2012 年 10 月 ImageNet 竞赛 结果 发 表 之 后 
不 久 (http: //www. imagenet. org/challenges/LSVRC/2012/) 。 这 主要 是 由 于 
大 量 的 有 标签 数据 及 高 性 能 GPU 计算 平台 的 出 现 使 得 大 规模 CNN 的 高 效 训练 
成 为 可 能 ， 从 而 实现 目标 识别 精度 的 大 幅度 提升 。 与 基于 DNN 的 深度 学 习 方 
法 在 处 理 一 系列 语音 识别 任务 (包括 音素 识别 、 大 词汇 量 语音 识别 、 抗 噪 语 
音 识别 和 多 语种 语音 识别 ) 的 效果 明显 优 于 其 他 主流 方法 的 情况 相 类 似 。 同 
样 基于 CNN 的 深度 学 习 方 法 也 在 一 系列 计算 机 视觉 标准 任务 测试 中 (包括 类 
级 别 的 目标 识别 、 目 标 检 测 和 语义 分 割 ) 表现 出 了 同样 的 优势 。 

图 10. 1 展示 了 文献 [212] 中 所 描述 的 CNN 的 基本 结构 。 为 了 包含 典型 
图 像 像素 对 于 位 置 的 空间 关联 相对 不 变性 这 一 特点 ，CNN 使 用 了 一 个 带 有 局 
部 接受 域 和 绑 定 过 滤 权 值 的 卷 积 层 ， 这 与 图 像 处 理 中 的 二 维 FIR 滤波 顺 非 常 类 
[o FIR 滤波 带 的 输出 通过 一 个 非 线 性 激励 函数 来 获得 激励 响应 ， 接 着 通过 一 
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个 非 线 性 池 化 (pooling) 层 (图 10.2 中 的 “ 子 采样 ") 来 减 小 码 率 且 同 时 确 
保 输 入 图 像 发 生 微小 变化 时 的 不 变性 。 最 后 再 将 池 化 层 的 输出 送 入 若干 个 全 连 
接 层 ， 就 像 我 们 在 前 几 章 介绍 DNN 时 讨论 过 的 一 样 。 这 样 一 个 整体 的 结构 在 
文献 中 也 被 称 作 深度 卷 积 神经 网 络 。 


C3:1. maps 16@10x10 
INPUT C1: feature maps. S4:f. maps 16@5x5 
32x32 6@28x28 








C5: layer - 
$30 m F6; layer CUTFUT 


| 
Full contection | Gaussian connections 


Convolutions Subsampling Convolutions Subsampling Full connection 


410.2 ”初始 卷 积 神经 网 络 包含 多 个 交替 的 卷 积 层 ， 全 连接 层 和 紧 随 其 后 的 池 化 层 
(参考 文献 [212], @ IEEE) 
































图 中 词语 翻译 对 照 表 
INPUT 输入 
Cl; feature maps Cl, 特征 映射 
Convolutions 卷 积 
maps 映射 
Subsampling FRE 
C5; layer C5; 层 
OUTPUT 输出 
Full connection 全 连接 
Gaussian connection 高 斯 连接 





类 似 于 CNN 这 样 具 有 卷 积 结 构 的 深度 模型 由 于 其 有 效 性 从 九 十 年 代 开 始 
便 一 直 被 应 用 于 计算 机 视觉 和 图 像 识别 领域 2%221。 而 其 中 最 令 人 瞩目 
的 成 绩 来 自 于 2012 年 的 ImageNet LSVRC 比赛 ， 此 次 比赛 的 任务 是 通过 训练 一 
个 具有 120 万 幅 高 分 状 率 图 像 的 分 类 器 来 实现 对 未 知 测试 图 像 进 行 1 000 种 不 
同类 别 的 分 类 。 所 用 的 测试 图 像 集 包 含 1. 5 万 个 数据 ， 比 赛 中 ， 使 用 深度 CNN 
进行 建 模 的 方法 获得 了 相 比 于 本 领域 其 他 算法 而 言 前 所 未 有 的 低 错误 率 。 本 次 
测试 所 使 用 的 更 大 深度 CNN 模型 包含 6 千 万 个 权 值 ，65 万 个 神经 元 节点 以 及 
具有 5 个 卷 积 层 结合 的 最 大 值 池 化 层 。 此 外 ， 两 个 我 们 前 面 在 讨论 DNN 时 所 
提 到 的 全 连接 层 也 被 用 于 这 个 CNN 模型 的 最 顶层。 尽管 上 述 讨论 中 所 涉及 的 
结构 在 早期 的 工作 中 也 曾 被 独立 研究 过 ,但 是 这 次 比赛 能 够 取得 成 功 的 根本 原 
因 在 于 其 实现 了 这 些 结构 的 一 个 最 优化 组 合 。 图 10. 3 中 展示 了 该 深度 CNN 系 
统 的 一 个 整体 结构 ， 另 外 还 有 两 个 额外 的 因素 也 成 为 最 后 成 功 的 关键 ， 首 先是 
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一 个 称 为 “dropout”5 的 强 有 力 的 正则 化 技术 ， 详 细 分 析 及 改进 请 参考 文献 
[10, 13, 240, 381, 385], JU Warde- Farley 等 人 对 于 dropout 解 耦 效果 的 
分 析 表 明 dropout 之 所 以 能 发 挥 作用 与 其 不 同 网 络 成 员 之 间 可 以 共享 参数 这 
一 机 制 是 密 不 可 分 的 。 这 也 是 为 什么 在 一 些 语音 识别 任务 上 ，dropout 同样 也 
获得 了 相当 成 功 的 应 用 ; 第 二 个 重要 因素 是 在 计算 f(x) =max (x, 0) 的 过 
程 中 ， 非 饱和 神经 元 也 称 整流 线性 单元 (ReLU) 的 成 功 应 用 ， 这 使 得 整个 训 
练 过 程 的 效率 被 极 大 地 提高 ， 尤 其 通过 GPU 并 行 运 算 实现 后 效果 更 加 明显 。 
这 套 深 度 CNN 系统 通过 使 用 额外 的 训练 数据 在 ImageNet Fall 2011 数据 集 上 获 
得 了 位 居 前 五 名 的 低 错误 率 15. 3% ; 同时 在 ImageNet 2012 数据 集 上 ， 它 在 仅 
使 用 已 有 数据 条 件 下 也 获得 了 16. 4% 的 低 错 误 率 ， 这 比 第 二 名 的 26. 2% 要 低 很 
多 ,第 二 名 的 系统 采用 了 多 种 分 类 器 组 合 的 方法 ， 而 这 些 分 类 器 均 使 用 了 大 量 包 
括 SIFT, Fisher 向 量 在 内 的 人 工 特征 。 读 者 可 参考 http: //www. image- net. 
org/challenges/LSVRC/2012/oxford_ vgg. pdf 中 关于 最 佳 竞赛 方法 的 讨论 。 但 值 
得 注意 的 是 ， 最 近 Simonyan 等 人 通过 多 层 堆 羡 策略 来 构建 深层 Fisher 网 络 拓展 
了 Fisher 向 量 编码 方法 ， 也 可 以 以 较 小 的 学 习 代 价 获得 同 深度 CNN 类 似 的 结果 。 
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E 10.3 获得 2012ImageNet 比赛 冠军 的 深度 CNN 系统 结构 ， 
成 绩 与 第 二 名 和 当年 其 他 前 沿 技术 有 很 大 差距 (参考 文献 [198], ，@ NIPS ) 








中 词语 翻译 对 照 表 
Stride 步 幅 
Max pooling 最 大 池 化 
Dense 全 连接 











有 具 有 代表 性 的 基于 深度 CNN 前 沿 方法 "'*] ， 其 效果 在 2013 年 被 进一步 提 
升 ， 此 种 改进 是 通过 使 用 更 大 规模 的 模型 以 及 更 多 的 训练 数据 来 实现 的 。 图 
10.4 汇总 了 参加 2013 年 ImageNet ILSVRC2013 竞赛 中 成 绩 最 好 的 11 个 参赛 系 
统 中 错误 率 最 低 的 前 五 名 ，2012 年 的 最 好 结果 (最 右 侧 ) 也 作为 比较 基准 被 
纳入 。 这 里 ， 我 们 可 以 看 到 在 处 理 同 样 的 任务 时 ， 最 低 错 误 率 呈 快 速 下降 的 趋 
势 ， 从 2012 年 之 前 的 26.2% (未 使 用 神经 网 络 ) 到 2012 年 的 13.3% ， 最 后 
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到 2013 年 的 11.2% ， 而 后 面 两 年 的 最 佳 成 绩 均 是 用 了 基于 深度 CNN 方法 获得 
的 。 同 样 值得 注意 的 是 ， 所 有 2013 年 ImageNet ILSVRC 的 主流 参赛 作品 都 用 
到 深度 学 习 技术 。 例 如 ， 图 10. 4 所 示 的 Adobe 系统 便 是 基于 文献 [198] 所 提 
出 的 包含 了 dropout 的 深度 CNN 模型 。 并 且 在 其 网 络 结构 中 加 入 更 多 的 滤波 需 
和 连接 。 在 测试 时 ， 图像 显著 性 被 用 于 从 原始 图 像 中 获取 9 个 剪裁 图 像 ， 并 同 
其 他 5 个 多 视角 的 剪裁 图 像 合 并 作为 输入 。 不 同 的 系统 对 于 该 过 程 的 实现 方式 
不 尽 相 同 ， 其 中 NUS 系统 使 用 了 一 种 非 参数 且 自 适应 的 方法 来 合并 多 个 浅 层 
和 深层 的 专家 系统 ， 包 括 深度 CNN 、 核 函数 以 及 CMM 方法 。 而 VGG AB”! 
使 用 了 深度 Fisher 向 量 网 络 和 深度 CNN 的 组 合 方式 。 此 外 ，ZF 则 是 基于 一 系 
列 不 同 结构 大 规模 CNN 组 合 的 系统 。 其 结构 的 选择 主要 通过 使 用 一 个 反 卷 积 
网 络 协助 实现 模型 特征 的 可 视 化 ， 该 过 程 在 Zeier 等 人 '* , Zeiler 和 Fer- 
gus 8) 以 及 Zeiler ®t 的 研究 中 均 有 描述 。 此 外 ， 认 知 视觉 系统 (Cognitive 
Vision) 使 用 了 一 种 基于 一 个 DNN 结构 的 图 像 分 类 策略 。 这 种 方法 受到 认 知 心 
理学 的 启发 ， 认 为 人 类 视觉 系统 会 首先 掌握 基本 层次 类 别 的 分 类 ， 而 后 才能 逐 
渐 在 从 属 级 别 层次 进行 分 类 ， 对 细致 目标 进行 识别 。 最 后 ， 如 图 10.4 Bras, 
拥有 最 佳 表现 的 Clarifai 系统 是 基于 一 个 大 而 深 的 并 且 使 用 dropout 正则 化 的 
CNN。 它 通过 将 图 像 下 采样 到 256 个 像素 来 增加 训练 数据 。 该 系统 包含 了 6500 
万 个 参数 。 通 过 将 多 个 这 样 的 模型 一 起 求 平均 来 进一步 提升 其 性 能 。 其 主要 的 
创新 点 是 使 用 了 基于 反 卷 积 网 络 的 可 视 化 技术 来 确保 使 深度 模型 能 发 现 让 其 获 
得 更 好 的 表现 的 因素 ， 并 以 此 来 选择 更 强 有 力 的 深度 结构 。 有 关 这 些 系 统 的 详 
情 请 参考 http: //www. imagenet. org/challenges/LSVRC/2013/results. php, 
















































































四 
Qa 
O 

= 
a 

[e] 
= 
= 
oO 
re 
Un 
w 
j= 





E 10.4 ImageNet 大 规模 视觉 识别 挑战 赛 2013 (ILSVRC2013) 结果 汇总 ， 
这 些 技术 代 表 了 目标 识别 系统 中 的 最 前 沿 。 数 据 源 : 
http: //www. image-net. org/challenges/LSVRC/2013/results. php 
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虽然 深度 CNN 已 被 证 明 在 目标 识别 任务 中 具有 卓越 的 分 类 性 能 ， 但 时 至 
今日 才 有 了 明确 的 解释 为 什么 它 能 表现 的 这 么 好 。Zeiler 和 Fergus 的 研究 工作 
恰恰 是 围绕 这 个 问题 而 展开 的 ， 进 而 利用 所 获知 的 理解 进一步 提高 了 CNN A 
统 的 性 能 并 且 获 得 了 非常 出 色 的 效果 ( 即 图 10.4 中 的 ZF 和 Clarifai 系统 ) 。 在 
这 中 间 ， 一 项 全 新 的 可 视 化 技术 被 开发 出 来 用 以 深入 了 解 深度 CNN 不 同 特征 
层 之 间 的 功能 。 这 项 技术 也 有 助 于 我 们 理解 整个 网 络 作为 一 个 分 类 器 时 的 运行 
过 程 。 该 可 视 技 术 基 于 反 卷 积 网 络 ， 它 将 原始 卷 积 网 络 中 间 层 的 神经 活动 映射 
回 输入 的 像素 空间 。 这 允许 研究 人 员 了 解 是 什么 样 的 最 初 输入 模式 在 特征 映射 
空间 形成 了 一 个 给 定 的 激励 。 图 10.5 (上 半 部 ) 说 明了 一 个 卷 积 网 络 是 如 何 
附着 到 每 一 层 的 ， 并 由 此 怎样 通过 一 个 闭环 返回 到 CNN 的 原始 输入 即 图 像 像 
素 。 信 息 在 这 个 闭环 中 的 流动 是 这 样 的 。 首 先 ， 一 个 输入 图 像 对 于 深度 CNN 
以 一 种 前 馈 方式 被 表示 出 来 ， 其 目的 是 为 了 使 得 所 有 层 都 会 计算 特征 。 为 了 分 
析 某 个 CNN 的 激励 函数 ， 同 一 层 中 其 他 激励 函数 都 被 置 为 0 且 其 特征 映射 会 
作为 附加 的 反 卷 积 网 络 层 的 输入 。 而 后 ， 紧 跟着 的 是 一 系列 与 CNN 中 前 馈 计 
算 相 反 的 连续 操作 ， 其 中 包含 反 池 化 、 校 正和 滤波 。 这 些 使 得 位 于 触发 选择 性 
激励 这 一 层 之 上 的 活动 得 以 重建 。 这 样 的 操作 不 断 重 复 直 至 到 达 输 入 层 。 而 在 
之 后 的 反 池 化 过 程 中 ，CNN 中 最 大 池 化 操作 的 非 可 逆 性 通过 一 个 近似 逆向 通 
近 的 方法 加 以 解决 ， 其 最 大 值 位 于 每 个 聚集 区 域 之 间 并 用 一 套 “ 开 关 ” 变 量 
加 以 记录 。 而 这 些 开关 被 用 来 将 上 层 重建 放置 到 合适 位 置 从 而 保留 原 有 的 激励 
结构 。 这 一 过 程 在 图 10.5 的 下 半 部 分 有 所 表示 。 

除了 上 面谈 到 的 深度 CNN 结构 外 ，DNN 结构 也 在 大 量 的 计算 机 视觉 任务 
上 获得 了 成 功 *”% 人 71。 可 是 我 们 并 没有 发 现 将 CNN, DNN 和 其 他 相关 结构 
在 以 识别 为 目的 任务 中 进行 直接 对 比 的 相关 资料 。 

最 后 需要 加 以 说 明 的 是 ， 最 近 关 于 计算 机 视觉 中 有 监督 学 习 的 研究 进一步 
表明 深度 CNN 结构 不 仅 在 目标 或 图 像 分 类 中 取得 了 成 功 ， 它 同样 也 能 在 针对 
整 幅 图 像 的 目标 检测 任务 中 取得 成 功 5] ， 而 相 比 于 分 类 任务 来 说 ， 目 标 检 测 
要 更 加 复杂 。 

这 里 ,我 们 简要 回顾 一 下 本 章 所 讨论 的 内 容 ， 深 度 学 习 紧 随 其 在 语音 识别 
中 所 获得 的 巨大 成 功 (第 7 章 ) ， 它 也 使 得 计算 机 视觉 领域 的 相关 研究 取得 了 
长 足 发 展 。 截止 目前 ， 正 是 基于 深度 CNN 结构 的 有 监督 学 习 样式 及 其 相关 分 
类 技术 才能 造成 如 此 巨大 的 影响 力 ， 这 尤其 体现 在 2012 ~ 2013 的 ImageNet 比 
赛 中 的 那些 最 新 的 方法 。 这 些 方法 不 仅 可 以 用 于 目标 识别 ， 同 样 还 可 以 应 用 于 
其 他 一 些 计算 机 视觉 的 任务 中 。 当 然 ， 一 些 有 关 CNN 的 深度 学 习 方 法 之 所 以 能 
够 成 功 的 原因 以 及 局 限 性 的 争论 依然 存在 ,依然 还 有 很 多 问题 值得 探讨 ， 例 如 
怎样 定制 这 些 方法 使 得 它们 能 够 应 用 于 一 些 特定 的 计算 机 视觉 任务 以 及 如 何 增 
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图 10.5 上 半 部 分 说 明 解 卷 积 网 络 层 (£) 如 何 与 CNN 层 (fA) 关联 起 来 。 
解 卷 积 网 络 重建 CNN 特征 的 近似 值 。 图 的 下 半 部 分 解释 了 解 卷 积 网 络 的 反 池 化 
操作 ， 在 CNN 池 化 时 每 个 池 化 层 的 局 部 最 大 值 记录 在 开关 变量 集合 中 


图 中 词语 翻译 对 照 表 

































































Layer Above Reconstruction 上 层 重 建 结 果 Pooled Maps 池 化 图 
Max Unpooling 最 大 化 反 池 化 Max Pooling 最 大 化 池 化 
Unpooled Maps 非 池 化 图 Rectified Feature Maps 修正 特征 医 

Rectified Liner Function 修正 线性 函数 Feature Maps 特征 图 
Convolutional Filtering 卷 积 滤波 Layer Below Pooled Maps 下 层 池 化 图 
Reconstruction 重 Switches 关 
Max Locations 局 部 最 大 Pooling 池 化 

Unpooling 反 池 化 Rectified Unpooled Maps 修正 反 池 化 图 
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大 模型 和 训练 数据 规模 等 。 最 后 ， 本 章 的 前 一 部 分 也 涵盖 了 一 些 深度 学 习 在 计 
算 机 视觉 及 图 像 建 模 问 题 中 有 关 非 监督 及 生成 方法 的 讨论 。 目 前 ， 在 拥有 充足 
训练 数据 的 条 件 下 ， 这 些 方法 在 目标 识别 中 的 表现 还 不 能 与 有 监督 学 习 相 提 并 
论 。 但 是 ， 如 果 想 要 实现 计算 机 视觉 领域 的 长 期 发 展 以 及 最 后 的 成 功 ， 无 监督 
学 习 则 显得 更 为 必要 。 因 此 ， 要 实现 这 一 目标 ,许多 无 监督 特征 学 习 和 深度 学 
习 中 存在 的 问题 依然 需要 开展 更 多 的 研究 来 加 以 解决 。 
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多 任务 学 习 (multi-task learning) 是 机 器 学 习 的 一 种 方法 ， 它 是 指 在 同一 
时 间 用 同一 种 共享 的 表示 来 学 习 和 人 解决 一 些 相 关 问 题 的 方法 。 它 可 以 看 作 是 迁 
移 学 习 (transfer learning) 或 者 知识 迁移 学 习 的 两 大 主要 类 别 之 一 ， 研 究 重 点 
是 分 布 、 领 域 或 者 任务 上 的 泛 化 。 另 一 种 主要 的 迁移 学 习 叫 做 适应 性 学 习 (a- 
daptive learning) ， 在 这 类 学 习 中 ， 知 识 迁 移 是 以 一 定 顺 序 进 行 的 ， 从 源 任 务 到 
目标 任务 的 迁移 是 其 中 的 一 个 代表 '” 。 多 模 态 (multi-modal) 学 习 与 多 任务 
学 习 是 紧密 相关 的 ， 这 些 学 习 领 域 或 “任务 ”涵盖 了 人 机 交互 的 多 个 模 态 或 
者 包含 兼 有 文本 、 语 音 、 和 触感 和 视觉 信息 资源 的 其 他 应 用 。 

深度 学 习 的 本 质 是 自动 地 发 掘 任意 一 种 机 器 学 习 任 务 中 有 效 的 特征 或 表 
示 ， 其 中 包括 从 一 个 任务 到 另 一 个 任务 即时 的 知识 转移 。 多 任务 学 习 通 常用 于 
目标 任务 领域 训练 数据 芽 乏 的 情况 ， 因 此 有 时 也 称 之 为 零 样本 (zero-shot) 或 
单 样本 (one-shot) 学 习 。 很 明显 ， 复 杂 的 多 任务 学 习 很 符合 深度 学 习 或 者 表 
示 学 习 的 要 求 。 在 资源 荐 乏 的 机 吉 学 习 场 景 中 ， 共 享 的 表示 以 及 任务 中 ( 包 
括 语音 、 图 像 、 触 感 和 文本 等 不 同 模 态 的 任务 ) 所 使 用 的 统计 方法 的 力量 将 
会 体现 得 淋漓尽致 。 在 使 用 深度 学 习 方 法 之 前 ， 多 模 态 和 多 任务 学 习 已 经 有 很 
多 的 研究 工作 ， 例 如 , 文献 [175, 103] 提出 并 阐述 了 一 个 叫做 MiPad 的 多 
模 态 交互 原型 ， 该 原型 能 够 捕 提 、 学 习 、 协 调 以 及 演 染 语音 、 触 觉 和 视觉 的 混 
合 信息 。 在 文献 [354, 443] 中 ,利用 不 同 传 感 特 性 的 麦克 风 来 采集 骨 传 导 
以 及 空气 传导 路 径 的 混合 声 源 ， 进 行 语 音 降 品 。 这 些 早期 的 研究 都 使 用 浅 层 模 
型 和 学 习 策 略 ， 得 到 的 结果 也 差强人意 。 随 着 深度 学 习 的 出 现 ， 复 杂 的 多 模 态 
学 习 问 题 看 到 了 上 电光， 一旦 这 一 难题 被 攻克 ， 实 际 应 用 将 会 如 雨 后 春 敌 般 层 出 
不 穷 。 本 章 中 ， 我 们 精心 挑选 了 这 个 领域 内 的 一 些 应 用 进行 详细 地 阐述 ， 它 们 
是 按照 模 态 间 的 不 同 组 合 或 者 不 同 的 学 习 任 务 进行 组 织 的 。 本 章 叙 述 的 内 容 有 
很 多 依然 是 研究 热点 ， 研 究 人 员 应 该 多 关注 后 续 出 版 物 。 


11.1 SRE: 文本 和 图 像 


文本 和 图 像 可 以 进行 多 模 态 学 习 的 根本 原因 是 它们 在 语义 层面 是 相互 联系 
的 。 我 们 可 以 通过 对 图 像 进行 文本 标注 来 建立 二 者 之 间 的 关系 (作为 文本 和 
图 像 多 模 态 学 习 系 统 的 训练 数据 ) 。 如 果 相 互 关联 的 文本 和 图 像 在 同一 语义 空 
间 共 享 同一 表示 ， 那 么 系统 可 以 推广 到 不 可 见 (unseen) 的 情况 ; 不 管 是 文本 
还 是 图 像 缺 失 ， 我 们 都 可 以 用 共享 的 表示 去 填补 缺失 的 信息 ， 因 此 可 以 自然 地 
应 用 于 图 像 或 文本 的 零 样本 学 习 。 换 言 之 ， 多 模 态 学 习 可 以 使 用 文本 信息 来 帮 
助 图 像 /视觉 识别 ， 反 之 亦 然 。 当 然 ， 这 个 领域 的 绝 大 多 数 研 究 集 中 在 通过 文 
本 信息 来 进行 图 像 / 视 觉 识 别 中 ， 我 们 将 在 下 面 进行 讨论 。 
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由 Frome 等 人 71 提出 的 深层 体系 结构 DeViSE (TREE MGIB LRA) 是 
利用 文本 信息 来 提高 图 像 识别 系统 性 能 的 多 模 态 学 习 的 典型 示例 ， 这 种 体系 结 
构 尤 其 适合 零 样本 学 习 (zero- shot learning) 。 当 物体 的 类 别 太 多 时 ， 很 多 图 像 
识别 系统 是 不 能 正常 运转 的 ， 部 分 原因 是 由 于 随 着 图 像 的 类 别 个 数 增加 ， 获 取 
足 量 带 有 文本 标签 的 训练 数据 也 越 来 越 难 。DeViSE 系统 旨 在 利用 文本 数据 去 
训练 图 像 模 型 。 通 过 带 有 标注 的 图 像 数 据 以 及 从 没有 标注 的 文本 中 学 习 到 的 语 
义 信息 来 训练 一 个 联合 模型 ， 然 后 利用 训练 好 的 模型 对 图 像 进 行 分 类 。 图 
11. 1 中 间 部 分 是 对 DeViSE 体系 结构 的 一 个 图 解 。 用 较 低层 的 两 个 模型 预 训练 
得 到 的 参数 对 DeViSE 进行 初始 化 ， 这 两 个 模型 分 别 是 : 图 中 左 侧 部 分 用 于 图 
像 分 类 的 深度 卷 积 神经 网 络 和 图 中 右 侧 部 分 的 文本 般 入 模型 。 图 11. 1 中 标记 
为 “核心 视觉 模型 ”的 深度 卷 积 神经 网 络 部 分 通过 标记 为 “转换 ”的 投影 层 
和 一 个 相似 度 度量 来 进一步 学 习 如 何 去 预 测 词 角 入 癌 量 。 训 练 阶段 所 采用 的 损 
失 函 数 是 内 积 相 似 度 以 及 最 大 边界 的 结合 体 ， 即 匀 链 排名 损失 。 如 9.3 节 所 
述 ， 内 积 相 似 度 是 余弦 损失 函数 的 非 归 一 化 形式 ,目的 是 为 了 训练 文献 
[170] 中 描述 的 DSSM 模型 。 最 大 边界 类 似 于 较 早 的 图 像 一 文本 模型 WSABIE 
(由 Weston 等 人 5 提出 的 运用 图 像 谋 入 进行 大 批量 网 络 标注 的 方法 ) 。 结 
果 表 明 ， 由 文本 提供 的 信息 提高 了 零 样本 预测 的 准确 性 ， 使 得 成 千 上 万 在 模型 
中 未 曾 出 现 过 的 标签 的 命中 率 达 到 了 上 比较 好 的 水 平 (接近 15% ) 。 

文献 [388, 389] 中 描述 了 早期 的 WSABIE 系统 ， 它 用 浅 层 结构 来 训练 
图 像 和 标注 之 间 的 联合 能 入 向 量 模型 。WSABIE 使 用 简单 的 图 像 特 征 和 线性 映 
射 实现 联 合 戏 入 向 量 空间 ， 并 非 在 DeViSE 中 利用 深层 结构 来 得 到 高 度 非 线性 
的 图 像 (文本 向 量 也 一 样 ) 特征 向 量 。 这 样 ， 每 一 个 可 能 的 标签 都 对 应 一 个 
向 量 。 因 此 ， 相 比 DeViSE 来 说 ，WSABIE 不 能 泛 化 新 的 类 别 。 
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图 11.1 多 模 态 DeViSE 架构 图 解 。 左 侧 部 分 是 激活 函数 为 softmax 的 输出 层 的 图 像 识 
别 神经 网 络 ， 右 侧 部 分 是 用 来 提供 词 家 入 向 量 的 skip- gram 模型 ， 详 见 8.2 节 和 
8.3; 中 间 是 带 有 两 个 在 softmax 层 下 用 图 像 和 词 酝 入 模型 初始 化 的 连接 (Siamese) 分 
支 DeViSE 的 联合 深度 图 像 一 文本 模型 ， 标 记 为 “转化 ” 层 ， 将 图 像 ( 左 侧 ) 和 文本 
( 右 侧 ) 分 支 的 输出 映射 到 同一 语义 空间 (参考 文献 [117] @ NIPS)。 
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图 中 词语 翻译 对 照 表 
Traditional Visual Model 传统 视觉 模型 
Deep Visual Semantic Embedding Model 深度 视觉 语义 能 入 模型 
Skip- gram Language Model (Skip- gram) 语言 模型 
label 抄本 
softmax layer softmax 层 
core visual model 核心 视觉 模型 
image 图 像 
parameter initialization 参数 初始 化 
similarity metric 相似 度 和 矩阵 
transformation 转换 
embedding vector lookup table HA Tid et #8 PR BS 
source word 源 单 词 








对 比 图 11.1 的 DeViSE 架构 以 及 第 9 章 中 图 9. 2 的 DSSM 体系 结构 ， 我 们 
会 看 到 一 些 很 有 意思 的 不 同 点 。DSSM 中 的 “查询 ”和 “文档 ”分 支 类 似 于 
DeViSE 中 的 “图 像 ” 和 “文本 一 标注 ”分 支 。 为 了 训练 端 对 端的 网 络 权重 ， 
DeViSE 和 DSSM 所 采用 的 目标 函数 都 是 和 向 量 间 余弦 距离 相关 的 。 一 个 关键 
的 不 同 点 在 于 DSSM 的 两 个 输入 集 都 是 文本 (例如 ， 为 信息 检索 设计 的 “ 查 
询 ” 和 “文档 ”) ， 因 此 ， 相 比 DeViSE 中 从 一 个 模 态 (B) 到 另 一 个 模 态 
(文本 ) 而 言 ，DSSM 中 将 “查询 ”和 “文档 ”映射 到 同一 语义 空间 在 概念 上 
显得 更 加 直接 。 而 另外 一 个 关键 的 区 别 在 于 DeViSE 对 未 知 图 像 类 别 的 泛 化 能 
力 来 源 于 许多 无 监督 文本 资源 的 文本 向 量 ( 即 没 有 对 应 的 图 像 ) ， 这 些 资源 包 
含 未 知 图 像 类 别 的 文本 标注 。 而 DSSM 对 于 未 知 单词 的 泛 化 能 力 来 源 于 一 种 特 
殊 的 编码 策略 ， 这 种 策略 依据 单词 的 不 同 字母 组 合 来 进行 编码 。 

最 近 ， 有 一 种 方法 受到 DeViSE 架构 的 启发 ， 通 过 对 文本 标注 和 图 像 类 别 
的 向 量 进 行 凸 组 合 来 将 图 像 映射 到 一 个 语义 向 量 空间 "1 。 这 种 方法 和 DeViSE 
的 主要 区 别 在 于 ，DeViSE 用 一 个 线性 的 转换 层 代 替 最 后 激活 函数 为 softmax 的 
卷 积 神经 网 络 图 像 分 类 器 。 新 的 转换 层 进 而 和 卷 积 神经 网 络 的 较 低层 一 起 训 
练 。 文献 [270] 中 的 方法 更 为 简单 一 一 保留 卷 积 神经 网 络 softmax 层 而 不 对 卷 
积 神经 网 络 进行 训练 。 对 于 测试 图 像 ， 卷 积 神经 网 络 首 先 产 生 N 个 最 佳 候选 
项 。 然后， 计算 这 NN 个 向 量 在 语义 空间 的 凸 组 合 。 即 得 到 softmax 分 类 器 的 输 
出 到 向 量 空间 的 确定 性 转化 。 这 种 简单 的 多 模 态 学 习 方法 在 ImageNet 的 零 样 
本 学 习 任 务 上 效果 很 好 。 

另 一 个 不 同 于 上 述 工作 但 又 与 其 相关 的 研究 主要 集中 在 多 模 态 庶 入 向 量 的 
使 用 上 ， 来 源 于 不 同 模 态 的 数据 (文本 和 图 像 ) 被 映射 到 同一 向 量 空间 。 例 
如 ，Socher 和 Fei- Fei [341] 利用 核 典 型 相关 性 分 析 (kernlized canonical cor- 
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relation) 将 词 和 图 像 映射 到 同一 空间 。Socher $ AC 将 图 像 映射 到 单个 词 
向 量 ， 这 样 构建 的 多 模 态 系统 可 以 对 没有 任何 个 例 的 图 像 类 别 进行 分 类 ， 类 
似 于 DeViSE 中 的 零 样本 学 习 。Socher 等 人 的 最 新 工作 '*! 将 单个 词 的 艇 入 拓 
展 为 短语 和 完整 句子 的 般 入 。 这 种 从 词 到 句子 的 拓展 能 力 ， 来 源 于 递归 神经 
网 络 和 对 依存 树 的 扩展 。8. 2 节 对 Socher 等 人 [347] 的 递归 神经 网 络 进行 
了 概述 。 

除了 将 文本 到 图 像 〈 反 之 亦 然 ) 映射 为 同一 向 量 空间 或 者 创建 一 个 联合 
的 图 像 / 文 本 瞬 入 空间 ， 文 本 和 图 像 的 多 模 态 学 习 也 同样 适用 于 语言 模型 的 框 
架 。 在 文献 [196] 中 ,研究 着 眼 于 建立 一 种 自然 语言 模型 ， 这 个 模型 依赖 于 
其 他 模 态 ， 例 如 图 像 模 态 。 这 类 多 模 态 的 语言 模型 被 用 于 (1) 对 于 给 定 的 复 
杂 描 述 的 查询 来 检索 图 像 ，(2) 对 于 给 定 的 图 像 查询 检索 出 相应 的 短语 描述 ; 
(3) 给 出 图 像 相关 文本 的 概率 。 通 过 训练 多 模 态 语言 模型 和 卷 积 神经 网 络 的 
组 合 来 联合 学 习 词 表示 和 图 像 特征 。 图 11. 2 是 多 模 态 语言 模型 的 一 个 图 解 。 
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图 11.2 多 模 态 语言 模型 。 预 测 所 得 的 下 一 个 单词 表示 rr 
是 由 图 像 特 征 x 偏差 引出 的 词 特征 r,, ，r,,，r,s 的 线性 预测 
(参考 文献 [196], @ ICML) 
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11.2 SRA. 语音 和 图 像 


Ngiam 等 人 W391 提出 并 评估 了 用 神经 网 络 来 学 习 音频 /语音 和 图 像 /视频 
模 态 特征 的 应 用 。 他 们 论述 了 两 感 交 叉 (cross-modality) 特征 学 习 ， 指 出 在 特 
征 学 习 阶段 ， 多 模 态 (例如 ,语音 和 图 像 ) 会 比 只 有 一 个 模 态 (例如 ， 图 像 ) 
学 到 更 好 的 特征 。 图 11. 3 展示 了 一 个 用 来 分 离 音 频 / 语 音 和 视频 /图 像 输 入 通 
道 的 双 模 深度 自 编 码 器 (bi-modal deep autoencoder) 架构 。 这 个 架构 的 本 质 是 
利用 一 个 共享 的 中 间 层 来 表示 两 种 模 态 。 这 是 对 第 4 章 中 图 4. 1 单 模 态 深度 语 
音 自 编码 器 的 一 个 直接 推广 。 作 者 更 进一步 说 明了 如 何 去 学 习 语 音 和 视频 的 共 
同 表示 ， 并 且 在 一 个 固定 的 任务 中 去 评估 它 ， 分 类 器 用 语音 数据 进行 训练 ， 但 
是 测试 的 时 候 用 的 是 视频 数据 ， 反 之 亦 然 。 这 项 工作 的 结论 是 : 深度 学 习 的 架 
构 通常 对 从 无 标注 的 数据 中 学 习 多 模 态 特征 以 及 通过 两 感 交 








Audio Reconstruction Video Reconstruction 






Shared 
Representation 


Audio Input Video Input 


(b) Bimodal Deep Autoencoder 


图 11.3 ”用 于 多 模 态 音频 /语音 和 视觉 特征 的 深度 除 噪 自 编码 器 的 体系 结构 
(参考 文献 [269], @ ICML) 




















图 中 词语 翻译 对 照 表 
Audio Reconstruction 音频 重建 Audio Input 音频 输入 
Video Reconstruction 视频 重建 Video Input 视频 输入 
Shared Representation 共享 表示 Bimodal Deep Autoencoder 双 模 深度 自 编码 器 
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又 信息 传递 来 提高 单个 模 态 特征 的 情况 是 很 有 效 的 。 但 是 这 个 方法 在 CUAVE 
数据 库 上 出 现 了 例外 。 文 献 [269, 268] 中 的 结果 表明 通过 视频 和 音频 去 学 
习 视 频 特 征 的 效果 优 于 仅 用 视频 特征 。 然 而 ， 这 篇 论文 同时 指出 文献 
[278] 中 用 复杂 信号 处 理 技术 提取 的 视觉 特征 ， 外 加 从 鲁 棒 语音 识别 中 提出 
的 非 确 定性 补偿 方法 ， 最 终 得 到 的 模型 在 两 感 交 叉 学 习 任 务 上 可 以 达到 最 好 的 
分 类 精度 ， 超 越 了 深度 结构 的 效果 。 

文献 [268, 269] 中 描述 的 用 深度 生成 式 架构 来 进行 多 模 态 学 习 的 方法 
是 基于 非 概率 的 自 编码 器 ， 然 而 近来 在 相同 的 多 模 态 应 用 中 也 出 现 了 基于 深度 
玻 尔 效 曼 机 (DBM) 的 概率 型 自 编码 器 。 在 文献 [348] 中 ,一 个 DBM 用 来 
提取 整合 了 不 同 模 态 的 统一 表示 ， 这 一 表示 对 分 类 和 信息 检索 任务 来 说 都 是 很 
有 帮助 的 。 与 为 了 表示 多 模 态 输入 而 在 深度 自 编 码 器 中 采用 的 “瓶颈 ” 层 不 
同 的 是 ， 这 里 我 们 首先 在 多 模 态 输入 的 联合 空间 中 定义 一 个 概率 密度 ， 然 后 用 
定义 的 潜在 变量 的 状态 作为 表示 。DBM 的 概率 公式 在 传统 的 深度 自 编 码 器 中 
是 没有 的 ， 因 此 这 里 概率 形式 的 优势 在 于 丢失 的 模 态 信息 可 以 通过 从 它 的 条 件 
概率 中 采样 来 弥补 。 最 近 自 编码 器 的 许多 工作 中 表明 i ， 推 广 的 降 噪 自 编 
码 器 的 采样 能 力 使 得 填补 缺失 模 态 信息 的 问题 看 到 了 曙光 。 对 于 包含 图 像 和 文 
本 的 双 模 态 数 据 ， 研 究 表明 ， 多 模 态 DBM 比 传统 的 深度 多 模 态 自 编码 器 以 及 
在 分 类 和 信息 检索 任务 中 的 多 模 态 DBN 效果 稍 好 。 目 前 与 推广 的 深度 自 编 码 
器 还 没有 比较 的 结果 ， 但 是 相信 结果 可 能 很 快 就 会 出 来 。 

本 章 前 面 所 讨论 的 多 模 态 处 理 以 及 学 习 的 若干 架构 可 以 看 作 是 多 任务 学 习 
(multi-task learning) 和 转化 学 习 (transfer learning) 的 特例 ("1 。 转 化 学 习 包 
含 适应 性 和 多 任务 学 习 ， 指 的 是 一 种 TR ee Tee 
学 习 架 构 或 技术 ， 可 以 发 掘 不 同学 习 ”output 
任务 中 隐藏 的 共同 的 解释 性 因素 。 这 
种 方式 允许 不 同 的 输入 数据 集 进 行 一 
定 的 共享 ， 因 此 是 允许 在 看 似 不 同 的 。 og 
学 习 任 务 中 进行 知识 传递 的 。 文 献 subsets of 
[22] 中 认为 ， 图 11. 4 的 学 习 架 构 factors 
和 关联 的 学 习 算 法 对 该 类 任务 是 有 
优势 的 ， 这 是 因为 它 能 够 学 习 捕 捉 
潜在 因素 的 表示 ， 这 些 因素 的 子 集 


ARMPE ESM, 我 们 将 会 在 BI BEERE PN T DNN RM, 
本 章 剩余 的 部 分 讨论 语音 、 自 然 语 REDE TES A. BC HARENAR 
= ihn ie one ee eee MER. (SKM [22] OERE) 
A g ZI se B® 


学 习 的 应 用 。 
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中 词语 翻译 对 照 表 
Task A 任务 A 
Task B 任务 B 
Task C 任务 C 
output 输出 
Shared subsets of factors 共享 因素 的 子 集 

input 输入 














11.3 在 语音 、 自 然 语言 处 理 或 者 图 像 领域 的 多 任务 学 习 


在 语音 领域 中 ， 最 有 意思 的 多 任务 学 习 应 用 当 属 多 语种 或 者 交叉 语种 的 语 
音 识 别 ， 不 同 语言 的 语音 识别 被 当 作 不 同 的 任务 。 为 了 解决 语音 识别 中 非常 有 
挑战 性 的 声学 建 模 问 题 ， 已 经 出 现 各 种 各 样 的 方法 。 然 而 出 于 经 济 层面 的 考 
处， 构建 全 世界 所 有 语种 的 语音 识别 系统 ， 瓶 贷 在 于 缺乏 标注 的 语音 数据 。 对 
于 高 斯 混合 模型 一 隐 马 尔 可 夫 模 型 (GMM- HMM) 系统 ”而 言 ， 交 又 语种 的 
数据 共享 以 及 数据 加 权 是 最 普遍 且 行 之 有 效 的 方法 。GMM- HMM 中 男 一 种 成 
功 的 方法 是 通过 基于 知识 或 者 数据 驱动 方法 来 完成 跨 语 言 的 发 音 单元 映 
射 "2 。 但 是 这 些 方法 的 效果 是 远 不 如 深度 神经 网 络 一 隐 马 尔 可 夫 模 型 (DNN- 
HMM) 的 ， 我们 现在 对 这 一 方法 做 一 下 总 结 。 

最 近 的 几 篇 论文 中 '%*1”1%]， 两 个 研究 小 组 独立 提出 了 非常 相近 的 、 具 有 
多 任务 学 习 能 力 、 用 于 多 语种 语音 识别 的 深度 神经 网 络 架 构 。 从 图 11.5 中 我 
们 可 以 看 到 这 种 架构 的 图 解 。 这 一 架构 的 思想 是 : 通过 适当 的 学 习 ， 深 度 神经 
网 络 中 由 低 到 高 的 隐 层 充当 着 复杂 程度 不 断 增加 的 特征 变换 ， 而 这 些 变换 共享 
跨 语 言 声学 数据 中 共有 的 隐藏 因素 。 神 经 网 络 最 后 一 个 softmax 层 充 当 着 一 个 
对 数 线 性 (log-liner) 分 类 需 ， 利 用 了 最 顶端 隐 层 所 表示 的 最 抽象 的 特征 向 
量 。 尽 管 对 数 域 的 线性 分 类 器 对 不 同 语言 在 必要 时 可 以 分 开 ， 但 特征 转换 仍 可 
以 在 跨 语言 之 间 共 享 。 文 献 [225, 420] 中 报告 的 多 语种 语音 识别 的 效果 非 
常 好 ， 这 个 结果 比 基 于 GMM- HMM 的 方法 好 很 多 。 这 些 工作 的 意义 是 重要 而 
深远 的 ， 它 表明 了 我 们 可 以 从 一 个 现 有 的 多 语种 DNN 中 快速 构建 出 一 个 性 能 
良好 的 新 语种 DNN 识别 器 。 这 样 最 大 的 好 处 莫 过 于 我 们 只 需要 目标 语言 少量 
的 训练 数据 ， 当 然 有 更 多 的 数据 可 以 进一步 地 提高 性 能 。 这 个 多 任务 的 学 习 方 
法 可 以 降低 无 监督 预 训练 阶段 的 需求 ， 并 且 可 以 用 更 少 的 迭代 次 数 进行 训练 。 
对 这 些 工作 进行 推广 ， 就 可 以 高 效 地 构建 一 个 通用 语言 的 语音 识别 系统 。 这 样 
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的 系统 不 仅 能 够 识别 许多 语言 以 及 提高 每 种 语言 的 识别 精度 ， 还 能 够 通过 简单 
HEZ DNN 的 softmax 层 扩 展 到 对 一 种 新 的 语言 的 支持 。 





Lang 1 Senone 


Lang 2 Senone 





Lang N Senone 


Common Layers 


Multi-frame 


图 11.5 一 个 用 于 多 语种 语音 识别 的 DNN 架构 














图 中 词语 翻译 对 照 表 
Lang 1 Senone 语种 1 的 音素 状态 
Lang 2 Senone 语种 2 的 音素 状态 
Lang N Senone 语种 N 的 音素 状态 
Common layers 共享 层 
Multi- frame MFCC features 多 帧 MFCC 特征 








图 11. 6 是 一 个 与 上 述 模型 密切 相关 的 、 具 有 多 任务 学 习 能 力 的 深度 神经 
网 络 架 构 。 该 模型 最 近 被 应 用 到 了 另 一 个 声学 建 模 的 任务 中 一 一 学 习 两 个 不 同 
声学 数据 集合 的 联合 表示 [94，221 ] 。 数 据 集 包 含 宽带 、 高 质量 的 16kHz 采 
样 率 的 语音 数据 ， 这 些 数 据 通常 是 从 日 趋 流行 的 智能 手机 语音 搜索 应 用 中 采集 
到 的 。 而 另外 一 种 ， 采 样 率 是 8kHz 的 窗 带 数据 集 通常 是 通过 电话 语音 识别 系 
统 采集 而 来 的 。 

下 面 介 绍 语音 领域 的 最 后 一 个 多 任务 学 习 的 例子 。 首 先 ， 我们 将 音素 识别 
和 词 识 别 当 作 是 两 个 单独 的 “任务 ”。 音 素 识别 的 结果 往往 被 用 于 口语 文本 检 
索 中 语种 类 型 的 鉴别 ， 而 不 是 用 于 产生 文本 输出 。 音 素 识 别 的 结果 不 是 用 来 产 
生 文本 输出 ， 而 是 用 来 做 语种 辨识 或 者 语音 文档 检索 。 进 而 ， 在 几乎 所 有 语音 
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系统 中 发 音 词典 的 使 用 可 以 看 作 是 共享 音素 识别 和 单词 识别 任务 的 多 任务 学 
习 。 更 多 先进 的 语音 识别 的 框架 已 经 将 这 个 方向 推 得 更 远 。 这 些 框 架 使 用 比 音 
素 更 好 的 单元 ， 从 分 层 的 语言 结构 中 完成 原始 语音 的 声学 信息 到 语义 内 容 的 过 
渡 。 例 如 ， 基 于 检测 (detection- based) 和 丰富 知识 (knowledge-rich) 的 语音 
识别 建 模 框 架 ， 使 用 了 称 为 “语音 属性 ”( speech attributes) 的 语音 原子 单元 。 
而 深度 学 习 的 方法 使 得 该 类 识别 方法 的 精度 已 经 得 到 了 很 大 的 提升 1。 








Senone 


Common Layers 





16 -kHz data 





filter bank padding 





0-4k Hz filter banks 





8 -kHz data 





图 11.6 用 16kHz 和 8kHz 采样 率 混合 带宽 的 声学 数据 训练 语音 识别 的 一 个 DNN 架构 


图 中 词语 翻译 对 照 表 


Senone 





通用 层 





Common layers 


16kHz data 16kHz 数据 
0 ~4kHz 滤波 器 组 
4 ~ 8kHz 滤波 器 组 








0 ~4k Hz filter banks 





4 ~8k Hz filter banks 
8kHz data 8kHz 数据 


0 ~4kHz 滤波 器 组 











0 ~4k Hz filter banks 





滤波 器 组 填充 





Filter bank padding 


在 自然 语言 处 理 领 域 ， 文 献 [62, 63] 中 阐述 的 研究 是 多 任务 学 习 最 典 
型 的 例子 。 一 系列 不 同 的 “任务 ” ， 词 性 标注 、 组 块 (chunking), MA KEER 
注 、 语 义 角色 辨识 和 相似 词 辨识 ， 均 可 使 用 一 个 通用 的 词 表示 和 一 个 统一 的 深 
度 学 习 方 法 来 完成 。 在 8.2 节 中 可 以 找到 这 些 工作 的 一 个 总 结 
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最 后 ， 深 度 学 习 在 图 像 / 视 觉 领 域 单 模 态 的 多 任务 学 习 上 也 是 非常 有 效 的 。 
Srivastava 和 Salakhutdinov'™?! 等 人 提出 了 应 用 在 不 同 图 像 分 类 数据 集 上 的 一 个 
DNN 系统 ， 这 一 系统 是 基于 分 层 贝 叶 斯 先 验 的 多 任务 学 习 系 统 。 深 度 神经 网 
络 和 先 验 结合 在 一 起 ， 通 过 任务 之 间 信 息 的 共享 和 在 知识 转移 中 发 现 相 似 的 类 
别 ， 提 高 了 判别 学 习 的 性 能 。 具 体 来 说 ， 他 们 提出 了 一 个 联合 学 习 图 像 分 类 和 
层次 类 别 的 方法 ， 比 如 对 那些 训练 样本 相对 少 的 “缺乏 数据 类 别 ”， 可 以 从 相 
似 且 拥有 较 多 训练 数据 的 “数据 丰富 类 别 ” 中 获得 帮助 。 这 个 工作 可 以 看 作 
是 学 习 输 出 表示 很 好 的 例子 ， 这 个 例子 和 学 习 输 入 表示 都 是 目前 所 有 深度 学 习 
研究 所 关注 的 。 

Ciresan 等 人 '3 将 深度 卷 积 神经 网 络 架 构 应 用 到 了 拉丁 文 和 中 文 的 字符 识 
别 的 工作 中 ， 这 是 图 像 领域 的 单 模 态 多 任务 学 习 的 一 个 实例 。 在 中 文字 符 上 训 
练 得 到 的 卷 积 神经 网 络 可 以 很 轻易 地 识别 大 写 拉 丁字 母 。 此 外 ， 可 以 通过 先 对 
所 有 类 别 上 的 一 个 小 的 子 集 做 预 训练 ， 然 后 训练 所 有 类 别 ， 对 中 文字 符 的 学 习 
进行 加 速 。 
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这 本 专著 首先 阐述 了 深度 学 习 的 发 展 历史 〈 侧 重 于 语音 识别 研究 领域 ) ， 
并 提出 了 一 个 用 于 分 析 文 献 中 现 有 的 座 度 网 络 的 分 类 方案 ， 类 别 包括 无 监督 的 
(其 中 有 许多 是 生成 式 的 ) 、 有 监督 的 和 混合 神经 网 络 。 作 为 上 述 三 类 中 的 代 
表 ， 本 书 对 深度 自 编码 器 、 深 度 堆 荆 网 络 DSN (以 及 它 的 许多 其 他 变种 ) 、 深 
度 置信 网络 一 深度 神经 网 络 (DBN- DNN) 或 预 训练 的 深度 神经 网 络 架构 进行 
了 讨论 和 详细 的 分 析 。 根 据 作 者 本 人 的 研究 经 历 ， 这 三 个 类 别 的 神经 网 络 是 流 
行 和 有 前 景 的 方法 。 这 本 专著 也 对 深度 学 习 在 信息 处 理 的 五 大 领域 中 的 应 用 进 
行 了 回顾 ， 包 括 语音 和 音频 (第 7 章 ) 、 自 然 语言 建 横 和 处 理 〈 第 8 章 ) 、 信 
息 检 索 (第 9 章 ) 、 目 标识 别 与 计算 机 视觉 (第 10 章 ) 和 多 模 态 以 及 多 任务 
学 习 (第 11 章 )。 其 他 一 些 深度 学 习 中 有 趣 但 并 不 是 主流 研究 方向 的 应 用 并 
没有 各 括 在 这 部 专著 里 。 有 兴趣 的 读者 可 以 翻阅 有 关 深 度 学 习 应 用 的 最 新 论 
文 ， 例 如 最 优 控制 ”i 、 强 化 学 习 ””| 、 恶 意 软件 分 类 '" 、 斥 缩 感 知 ”” R 
别 中 置信 度 的 预测 "…” 、 声 学 到 发 音 的 转化 "” 、 视 频 中 的 情感 识别 、 语 音 
中 的 情感 识别 |、 口语 理解 3 A BO) TER 、 
口语 对 话 系统 中 的 对 话 状态 追踪 、 自 动 语音 激活 检测 、 语 音 增 
ROS. ERER DB TE UU S 。 

目前 已 经 有 很 多 深度 学 习 的 相关 文献 ， 其 中 大 部 分 来 自 于 机 天 学 习 领 域 。 
言 号 处 理 领 域 在 过 去 的 儿 年 里 才 开 始 转战 深度 学 习 (大 约 在 2009 年 底 开 始 ) ， 
并 一 直 保持 前 所 未 有 的 快速 增长 势头 。 本 书 主要 是 从 信和 号 与 信息 处 理 的 角度 来 
写 的 。 除 了 调研 现 有 的 深度 学 习 相 关 工 作 ， 我 们 提出 了 一 个 从 架构 和 学 习 算法 
的 本 质 这 两 方面 出 发 的 分 类 方案 ， 并 提供 了 具体 实例 分 析 及 讨论 。 我 们 希望 这 
本 专著 中 的 调研 能 够 为 读者 更 好 地 理解 本 书 中 所 讨论 的 不 同 的 深 度 学 习 系 统 、 
不 同 但 相似 的 深度 学 习 方 法 之 间 的 联系 以 及 如 何在 不 同 的 情况 下 设计 合适 的 深 
度 学 习 算法 提供 思路 。 

纵 观 整个 综述 ， 我 们 传达 了 一 个 重要 的 信息 ， 那 就 是 构建 和 学 习 特 征 的 深 
层 表示 是 非常 必要 的 。 由 于 最 优化 的 困难 ， 在 零 样本 的 情况 下 学 习 深 度 网 络 所 
有 层 的 参数 难度 很 大 ， 我 们 已 经 对 其 进行 了 讨论 ， 这 一 点 需要 更 进一步 的 理 
解 。 我 们 在 第 5 章 详 细 回顾 了 DBN- DNN 混合 结构 中 的 无 监督 预 训 练 方法 ， 提 
供 了 一 个 有 用 的 、 经 验 性 的 解决 优化 问题 中 的 局 部 最 优 解 的 方案 ， 同 时 提供 了 
包含 大 量 参数 的 深度 模型 正则 化 的 解决 方案 (虽然 缺乏 稳固 的 理论 基础 )。 在 
训练 数据 有 限 的 监督 学 习 情况 下 ， 预 训练 方法 对 性 能 而 言 是 很 重要 的 一 个 因 
素 ， 该 方法 促成 了 2009 年 学 术 界 和 工业 界 研究 者 的 合作 ， 从 而 引起 了 信号 处 
理 领 域 对 深度 学 习 的 极 大 兴 

深度 学 习 是 一 项 新 兴 技 术 。 尽 管 目 前 已 经 有 很 多 经 验 性 的 研究 成 果 ， 但 是 
仍然 有 很 多 工作 需要 开展 。 重 要 的 是 ， 深 度 学 习 的 研究 者 还 没有 找到 一 个 单独 




































































的 深度 学 习 技 术 能 够 成 功 应 用 到 所 有 的 分 类 任务 中 去 。 例 如 ， 虽 然 从 经 验 上 来 
说 ， 通 用 的 生成 式 预 训练 伴随 判别 式微 调 的 学 习 策 略 在 很 多 任务 上 应 用 的 很 
好 ， 但 是 在 其 他 一 些 任务 上 却 是 失败 的 〈 例 如 语种 识别 或 说 话 人 识别 ) 。 对 这 
些 任务 来 说 ， 在 生成 式 预 训练 阶段 提取 的 特征 似乎 可 以 很 好 地 描述 语音 的 变 
化 , 但 是 缺乏 判别 不 同 语言 的 信息 。 一 种 可 以 提取 判别 和 不 变性 特征 的 学 习 策 
略 应 该 可 以 提供 更 好 的 解决 方案 。 这 种 思想 被 称 为 “ 理 清 ” ( disentangling)， 
并 在 文献 [24] 中 进行 了 扩展 。 此 外 ， 提 取 判 别 特征 可 以 大 大 减少 许多 当前 
深度 学 习 系 统 中 模型 的 大 小 。 领 域 知识 是 应 用 深度 学 习 方 法 成 功 的 关键 。 例 如 
哪 种 不 变性 对 于 给 定 的 一 项 特定 任务 (例如, 视觉、 语音 或 自然 语言 ) 是 有 
用 的 ? 哪 种 以 参数 约束 为 标准 的 正则 化 是 对 深度 学 习 方 法 应 用 的 关键 ? 此 外 ， 
除 本 书 讨论 的 几 个 流行 的 架构 之 外 ， 目 前 深度 学 习 领 域 正在 积极 研究 新 型 的 深 
度 神经 网 络 架 构 和 学 习 策 略 (参见 文献 [24，89] ) ， 它 们 有 望 提高 深度 学 习 
模型 在 更 多 具有 挑战 性 的 信号 处 理 和 人 工 智能 应 用 中 的 性 能 。 

最 近 发 表 的 研究 工作 指出 ， 现 有 深度 架构 的 优化 技术 还 有 着 巨大 的 提升 空 
[én] 708-298.299, 311,350,393) 。 究 竟 预 训练 对 学 习 深 度 架 构 中 整体 参数 的 重要 程度 有 多 
大 ， 目 前 还 在 研究 中 ， 尤 其 是 当 有 大 量 标注 训练 数据 时 ,可 以 降低 甚至 消除 模型 的 
正则 化 的 需求 。 一 些 初步 结果 已 在 本 书 和 文献 [55 ,161 ,323 ,429 | 中 进行 了 讨论 。 

近年 来 ， 机 器 学 习 越 来 越 依赖 于 大 规模 的 数据 集 。 例 如 ， 本 书 中 讨论 的 许 
多 最 新 成 功 的 深度 学 习 案 例 都 依赖 于 大 量 数据 集 和 强大 的 计算 能 力 。 如 果 不 能 
获取 到 大 量 真实 的 数据 集 ， 没 有 相关 的 工程 专业 知识 ， 探 索 新 算法 将 会 变 得 异 
常 困难 。 深 度 学 习 算 法 的 效能 在 很 大 程度 上 依赖 于 可 获得 的 数据 量 和 计算 能 
力 。 正 如 我 们 所 列举 的 语音 识别 的 例子 ， 一 个 深度 学 习 算 法 在 小 的 数据 集 上 效 
果 不 是 特别 明显 ， 但 一 旦 数据 量 提升 后 ， 算 法 开始 表现 得 相当 好 ， 这 也 是 最 近 
神经 网 络 研 究 复苏 的 主要 原因 之 一 。 举 一 个 例子 ， 如 果 有 足够 的 数据 和 计算 能 
Hi, 那么 引领 (深度) 机 器 学 习 人 研究 新 时 代 的 深度 置信 网 络 预 训练 ， 看 起 来 
就 并 不 是 那么 有 必要 了 。 

因此 ， 有 效 且 可 扩展 的 并 行 算法 对 于 训练 拥有 大 量 数据 集 的 深度 模型 而 言 
是 极其 重要 的 ， 如 许多 常见 的 信息 处 理 的 应 用 (语音 识别 和 机 器 翻译 )。 众 所 
周知 ， 常 用 的 “迷你 批量 ” (mini- batch) 随机 梯度 技术 是 难以 通过 计算 机 并 
行 的 。 最 近 开发 的 异步 随机 梯度 下 降 学 习 算 法 已 通过 大 规模 CPU RREO 和 
GPU 集群 实现， 尽管 我 们 非常 期 待 这 项 技术 的 成 熟 ， 但 目前 而 言 最 常见 的 
做 法 还 是 使 用 GPGPUs 加 速 学 习 过 程 。 在 这 个 有 趣 的 计算 架构 中 ， 并 行 中 训练 
数据 的 不 同 子 集 上 有 很 多 深度 学 习 计 算 梯度 时 的 不 同 副本 。 这 些 梯度 被 传输 到 
一 个 更 新 共享 权重 的 中 央 参 数 服务 器 上 。 尽 管 每 个 副本 通常 使 用 不 立即 更 新 的 
参数 值 计算 梯度 ， 随 机 梯度 下 降 对 于 其 引入 的 轻微 错误 还 是 鲁 棒 的 。 为 了 使 深 
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度 学 习 技术 扩展 到 非常 大 的 训练 数据 ， 如 何 合理 地 使 用 并 行 学 习 和 优化 算法 以 
及 新 型 的 架构 ， 在 理论 上 需要 进一步 的 发 展 ” POO) 。 为 了 推动 语音 
识别 前 进 到 更 高 的 层次 ， 它 的 优化 方法 可 能 同时 需要 被 考虑 在 内 “1 。 

目前 ， 阻 碍 深度 神经 网 络 以 及 相关 深度 模型 应 用 的 一 个 主要 屏障 是 : 需要 
足够 的 能 力 和 经 验 来 合理 地 选择 超 参数 的 取 值 ， 壁 如 学 习 速率 、 正 则 项 的 强度 
以 及 层 数 和 每 层 的 单元 个 数 等 。 一 个 超 参 数 的 合理 值 取决 于 其 他 超 参 数 的 取 
值 ， 并 且 深 度 神经 网 络 中 超 参数 的 微调 代价 很 大 。 近 来 提出 了 一 些 用 来 解决 这 
个 问题 的 有 趣 方法 ， 包 括 随机 采样 ”和 贝 叶 斯 优化 过 程 ” 。 在 这 个 重要 领域 
内 ,我 们 有 必要 进行 进一步 的 研究 。 

这 本 专著 中 第 8 章 和 第 11 章 主要 讲 自然 语言 和 多 模 态 的 应 用 ， 已 经 涉及 
应 用 深度 学 习 方 法 的 一 些 最 新 工作 ， 本 书 所 讲 的 使 用 有 监督 、 无 监督 或 者 混合 
学 习 方法 来 直接 进行 模式 识别 研究 并 未 涵盖 这 些 工 作 。 理 论 上 讲 ， 深 度 网 络 通 
过 分 层 的 网 络 单元 集合 做 分 布 式 表示 (参见 表 3.1) ， 对 推理 、 关 系 、 实 体 、 
概念 、 事 件 、 主 题 等 进行 编码 ， 因 此 具有 在 结构 上 进行 有 效 推理 的 潜力 ， 正 如 
先前 一 些 早 期 出 版 物 和 最 新 论文 中 指出 的 那样 190789288, 297.93.2991 。 尽 管 像 第 8 
前 和 第 11 章 所 回顾 的 ， 近 来 文献 出 现 了 深度 网 络 在 这 方面 进行 了 初始 的 探索 ， 
但 仍然 有 很 多 工作 需要 做 。 如 果 成 功 的 话 ， 这 类 深度 学 习 “ 机 器 ”将 会 像 一 
个 “具有 思维 的 大 脑 ” 那 样 ， 在 人 工 智 能 领域 中 开创 许多 新 突 而 振奋 人 心 的 
应 用 。 虽 然 充 满 着 全 新 的 挑战 ， 我 们 布 望 未 来 在 这 个 领域 将 会 有 越 来 越 多 的 深 
度 学 习 的 研究 工作 。 

进一步 来 说 ,深度 学 习 的 方方面面 都 需要 建立 坚实 的 理论 基础 。 比 如 说 ， 
深度 学 习 在 无 监督 的 学 习 中 并 没有 监督 学 习 那 样 成 功 ， 但 是 深度 学 习 的 本 质 和 
主要 动机 是 自动 地 发 气 数 据 的 表示 。 问 题 涉及 高 效 地 学 习 特 征 表示 以 及 设计 合 
理 的 深度 学 习 架 构 / 算 法 来 高 效 地 解决 数据 变化 中 潜在 解释 因素 的 分 布 式 表示 。 
Ait, 目前 为 止 , 绝 大 多 数 深 度 学 习 技 术 只 是 被 成 功用 于 解决 无 结构 或 者 
“扁平 结构 ”的 分 类 问题 。 例 如 ， 本 质 上 来 说 ， 尽 管 语音 识别 是 一 个 序列 分 类 
问题 ， 在 很 多 成 功 的 大 规模 系统 中 ， 用 一 个 独立 的 隐 马 尔 可 夫 模 型 来 处 理 序列 
结构 ， 深 度 神经 网 络 仅仅 用 来 产生 逐 帧 、 无 结构 的 后 验 分 布 。 目 前 ， 已 经 有 一 
些 研究 工作 开始 跨越 “扁平 结构 ”的 表示 ， 在 深度 学 习 架 构 和 输入 输出 的 表 
示 方 面 同 时 引入 结构 信息 。 

最 后 ， 深 度 学 习 研究 者 得 到 神经 系统 科学 家 的 建议 ， 开 始 考 虑 更 加 宽广 的 
问题 以 及 学 习 架 构 ， 以 便于 洞察 大 脑 中 或 许 对 实际 应 用 有 效 的 生物 学 上 有 意义 
的 表示 ”1 。 人 研究 分 层 的 大 脑 结构 而 得 到 的 更 加 科学 的 计算 神经 系统 模型 又 将 
如 何 帮 助 提高 工程 中 的 深度 学 习 架构 的 效能 ?为 了 进一步 推动 并 拓展 深度 学 习 
的 领域 ， 这 一 章 中 所 讨论 的 问题 均 有 待 更 进一步 地 深入 研究 。 
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英文 缩写 英文 全 称 中 文 翻译 
ASGD Asynchronous Gradient Descent 异步 随机 梯度 下 降 
BM Boltzmann Machine 玻 尔 效 曼 机 
BP Back Propagation 反 向 传播 算法 
BPTT Back- propagation through Time 沿 时 间 反 向 传播 
CBOW Continuous Bag- of- words 连续 词 袋 模型 
BD DN NIN Context- dependent Deep Neural 上 下 文 相 关 的 深度 
Network - Hidden Markov Model 神经 网 络 - 隐 马 尔 可 夫 模 型 
CNN Convolutional Neural Networks 卷 积 神经 网 络 
CD Contrastive Divergence 对 比 散 度 
CRF Conditional Random Field 条 件 随 机 场 
DBM Deep Boltzmann Machines 深度 玻 尔 效 曼 机 
DBN Deep Belief Network 深度 置信 网 络 
DCN Deep Convex Network 深度 凸 网 络 
DSN Deep Stacking Network PR ESE W A 
DNN Deep Neural Networks 深度 神经 网 络 
DSSM Deep Semantic Similarity Model 深度 语义 相似 模型 
FIR Finite Impulse Response 有 限 冲 击 响应 滤波 器 
{MLLR 


Feature- domain Max- likelihood Linear Regression 


特征 域 最 大 似 然 线 性 回归 





Gaussian RBM 


Gaussian Restricted Boltzmann Machines 


高 斯 受 限 玻 尔 兹 曼 机 





Gaussian- Bernoulli RBM 


Gaussian- Bernoulli Restricted Boltzmann Machines 


高 斯 - 伯 努 利 受 限 玻 尔 兹 曼 机 












































GMM Gaussian Mixture Models 高 斯 混合 模型 
HHMM Hierarchical Hidden Markov Model 层级 隐 马 尔 可 夫 模 型 
HTM Hierarchical Temporal Memory 层级 时 间 记 忆 模 型 

IR Information Retrieval 信息 检索 
KLD Kullback - Leibler Divergence KL 散 度 

LM Language model 语言 模型 

LR Logistic Regression 逻辑 回归 
LSTM Long- Short- Term Memory 
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( 续 ) 
英文 缩写 英文 全 称 中 文 翻译 
MaxEnt Maximum Entropy RAKAR A 
MCMC Markov Chain Monte Carlo 蒙特 卡 罗 马 尔 可 夫 链 
mcRBM Mean- covariance RBM 均值 - 协 方 差 受 限 玻 尔 效 曼 机 
MLP Multi-layer Perceptrons 多 层 感知 器 
MMI Maximum Mutual Information 最 大 互信 息 
MPE Minimum Phone Error 最 小 音素 误差 
NCE Noise- contrastive Estimation 噪声 对 比 估计 
NLP Natural Language Processing 然 语言 处 理 
NNLM Neural Network Language Model 神经 网 络 语言 模型 
PCD Persistent Contrastive Divergence PSE RT LE BE 
RBM Restricted Boltzmann Machine 受 限 玻 尔 效 曼 机 
ReLU Rectified Linear Units 整流 线性 单元 
RNN Recurrent Neural Networks 递归 神经 网 络 
SGD Stochastic Gradient Descend 随机 梯度 下 降 
OUENN Structured Output Layer- Neural ae Hye 的 
Network Language Model 神经 网 络 语言 模型 
SESM Sparse Encoding Symmetric Machine 对 称 稀疏 编码 机 
SPN Sum- product Network 和 积 网 络 
SVD Singular Value Decomposition 奇异 值 分 解 
SVM Support Vector Machines 支持 向 量 机 
TDNN Time- delay Neural Network 延 时 神经 网 络 
TDSN Tensor Deep Stacking Network THEIR HE Bd 
VQ Vector Quantization 矢量 量化 
WER Word Error Rate 








词 错 误 率 
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深度 学 习 是 人 工 智能 领域 最 近 20 年 里 最 受 瞩 目的 研究 方向 ， 近 年 来 显 
著 推 动 了 语音 、 图 像 、 自 然 语 言 理解 、 机 器 翻译 ， 甚 至 是 控制 等 众多 技术 方 
向 的 发 展 。 本 书 原著 作者 微软 研究 院 的 邓 力 博士 和 俞 栋 博 士 是 语音 识别 和 深 
度 学 习 方 面 的 先驱 之 一 ， 对 于 深度 学 习 的 进展 有 丰富 的 实践 经 验 和 深刻 理 
解 。 这 个 学 科 人 处 于 快速 进展 之 际 ， 本 书 对 当前 的 进展 进行 全 景 式 系统 性 的 杭 
理 无 疑 是 很 有 意义 的 ， 因 为 毕竟 对 于 每 一 位 读者 ， 从 这 几 年 浩如烟海 的 论文 
中 准确 把 握 可 以 沉 演 下 来 的 进展 是 不 容易 的 。 谢 秦 教 授 受 邓 力 博士 之 约 在 日 
忙 之 中 对 这 本 书 进行 翻译 ， 对 于 深度 学 习 在 中 国 的 发 展 具有 重大 意义 。 邓 力 
博士 和 谢 磊 教 授 都 是 我 所 熟知 的 学 者 和 好 友 。 我 相信 ， 本 书 作为 他 们 这 次 合 
作 的 成 果 ， 对 于 有 志 于 了 解 和 学 习 深 度 学 习 的 中 国 读者 会 有 极 大 的 帮助 。 
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